{ "cells": [ { "cell_type": "markdown", "metadata": {}, "source": [ "# Inżynieria cech" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "
\n", "Definicja \n", "\n", "Feature Engineering polega na przekształcaniu surowych danych w cechy użyteczne w procesie modelowania. \n", "
" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "
\n", "Info \n", "\n", "Tworzenie zmiennych predykcyjnych zawsze powinno opierać się przede wszystkim na zrozumieniu danych i wiedzy biznesowej związanej z danym problemem. Istnieje jednak kilka standardowych technik, które można stosować do tworzenia cech w większości problemów, można tu wyróżnić:\n", "- przekształcanie zmiennych kategorycznych\n", "- zmienne na podstawie cech z daty\n", "- zmienne powstałe przez przesunięcie w czasie\n", "- transformacje zmiennych numerycznych\n", "- zmienne interakcji\n", "
" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "
\n", "Uwaga! \n", " \n", "Feature Engineering stanowi jeden z ważniejszych etapów w procesie budowy uczenia maszynowego, dlatego należy mu poświęcić dużo uwagi. Często można uzyskać znacznie lepsze wyniki mając prosty model oparty na cechach predykcyjnych dobrze oddających naturę badanego zjawiska niż budując wyrafinowany model w oparciu o zbyt wąski zbiór zmiennych.\n", "
" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "# Tworzenie przykładowych zbiorów danych" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Zaprezentujemy tutaj 2 przykładowe zbiory danych o różnym charakterze oraz przykłady zmiennych predykcyjnych, które można wygenerować na ich podstawie" ] }, { "cell_type": "code", "execution_count": 9, "metadata": { "ExecuteTime": { "end_time": "2021-10-13T07:15:51.187621Z", "start_time": "2021-10-13T07:15:40.687595Z" } }, "outputs": [], "source": [ "import pandas as pd\n", "import numpy as np\n", "import matplotlib.pyplot as plt" ] }, { "cell_type": "code", "execution_count": 10, "metadata": { "ExecuteTime": { "end_time": "2021-10-13T07:15:51.344602Z", "start_time": "2021-10-13T07:15:51.332608Z" } }, "outputs": [], "source": [ "def generateIceCreamSalesData(month_coef=10000, week_coef=1000, day_coef=100, random_coef =10000):\n", " dates = pd.date_range(start=\"2018-01-01\", end=\"2020-12-31\", freq =\"D\")\n", " df = pd.DataFrame(dates, columns=[\"SalesDate\"])\n", " df[\"Month\"] = df.SalesDate.dt.month\n", " df[\"Week\"] = df.SalesDate.dt.isocalendar().week\n", " df[\"WeekDay\"] = df.SalesDate.dt.dayofweek+1\n", " df[\"IceCreamSales\"] = (-1*np.power(df.Month-6,2)+np.power(6,2))*month_coef + (-1*np.power(df.Week-27,2)+np.power(27,2))*week_coef +df.WeekDay*day_coef +random_coef * np.random.randint(low =1,high =10, size=len(df))\n", " return df.loc[:,[\"SalesDate\",\"IceCreamSales\"]]" ] }, { "cell_type": "code", "execution_count": 11, "metadata": { "ExecuteTime": { "end_time": "2021-10-13T07:15:51.668480Z", "start_time": "2021-10-13T07:15:51.471482Z" } }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
SalesDateIceCreamSales
02018-01-01253100
12018-01-02223200
22018-01-03173300
32018-01-04223400
42018-01-05223500
.........
10912020-12-27134700
10922020-12-28143100
10932020-12-2993200
10942020-12-3073300
10952020-12-31133400
\n", "

1096 rows × 2 columns

\n", "
" ], "text/plain": [ " SalesDate IceCreamSales\n", "0 2018-01-01 253100\n", "1 2018-01-02 223200\n", "2 2018-01-03 173300\n", "3 2018-01-04 223400\n", "4 2018-01-05 223500\n", "... ... ...\n", "1091 2020-12-27 134700\n", "1092 2020-12-28 143100\n", "1093 2020-12-29 93200\n", "1094 2020-12-30 73300\n", "1095 2020-12-31 133400\n", "\n", "[1096 rows x 2 columns]" ] }, "execution_count": 11, "metadata": {}, "output_type": "execute_result" } ], "source": [ "IceCream_df = generateIceCreamSalesData()\n", "IceCream_df" ] }, { "cell_type": "code", "execution_count": 12, "metadata": { "ExecuteTime": { "end_time": "2021-10-13T07:15:51.898539Z", "start_time": "2021-10-13T07:15:51.872481Z" } }, "outputs": [], "source": [ "def generate_used_cars_data(len_df =1000):\n", " conditions ={\"very_bad\":1,\"bad\":2,\"medium\":3,\"good\":4,\"very_good\":5}\n", " brands =[\"Fiat\",\"Renault\",\"VW\", \"Seat\", \"Skoda\",\"Toyota\", \"Audi\",\"BMW\",\"Mercedes\", \"Bugatti\"]\n", " standard_brands = [\"Fiat\",\"Renault\",\"VW\", \"Seat\", \"Skoda\",\"Toyota\"]\n", " premium_brands = [\"Audi\",\"BMW\",\"Mercedes\"]\n", " luxury_brands = [\"Bugatti\"]\n", " dict_data ={\"condition\":np.random.choice(list(conditions.keys()),size=len_df, p = [0.05, 0.15, 0.3, 0.3,0.2 ]),\n", " \"brand\":np.random.choice(brands,size=len_df, p=[0.1]*10 ),\n", " \"year_manufactured\":np.random.randint(1950,2020,size =len_df)\n", " }\n", " df = pd.DataFrame(dict_data)\n", " df[\"age\"] =2021- df.year_manufactured\n", " df[\"mileage\"] = df.age *np.random.randint(100,10000, len_df)+np.random.randint(100,10000, len_df)\n", " \n", " df[\"selling_price\"] = 100000*df[\"brand\"].isin(standard_brands)+300000*df[\"brand\"].isin(premium_brands)+600000*df[\"brand\"].isin(luxury_brands)\n", " df[\"selling_price\"] /= np.log1p(df.age)+np.log1p(df.mileage)\n", " df[\"condition_num\"] = df.condition.map(lambda x:conditions[x])\n", " df[\"selling_price\"] *= np.log1p(df[\"condition_num\"])\n", " df.loc[(df[\"brand\"].isin(luxury_brands))&(df.year_manufactured<=1970)&(df[\"condition_num\"]>3),\"selling_price\"] *=\\\n", " np.log1p(df.loc[(df[\"brand\"].isin(luxury_brands))&(df.year_manufactured<=1970)&(df[\"condition_num\"]>3),\"age\"])\n", " df[\"selling_price\"] = np.round(df[\"selling_price\"])\n", " return df.loc[:,[\"selling_price\",\"condition\",\"mileage\",\"brand\",\"year_manufactured\"]]" ] }, { "cell_type": "code", "execution_count": 13, "metadata": { "ExecuteTime": { "end_time": "2021-10-13T07:15:52.225195Z", "start_time": "2021-10-13T07:15:52.139106Z" } }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
selling_priceconditionmileagebrandyear_manufactured
09847.0good338883Fiat1985
17899.0medium589817Renault1951
211231.0good79656Toyota2001
333941.0good115919Mercedes2009
438360.0very_good64115Mercedes2003
..................
99510204.0medium29430Renault1995
99636737.0very_good119063Audi2003
9978692.0bad14683Seat2001
99816719.0very_good15039Renault2019
99939886.0very_good44529BMW2006
\n", "

1000 rows × 5 columns

\n", "
" ], "text/plain": [ " selling_price condition mileage brand year_manufactured\n", "0 9847.0 good 338883 Fiat 1985\n", "1 7899.0 medium 589817 Renault 1951\n", "2 11231.0 good 79656 Toyota 2001\n", "3 33941.0 good 115919 Mercedes 2009\n", "4 38360.0 very_good 64115 Mercedes 2003\n", ".. ... ... ... ... ...\n", "995 10204.0 medium 29430 Renault 1995\n", "996 36737.0 very_good 119063 Audi 2003\n", "997 8692.0 bad 14683 Seat 2001\n", "998 16719.0 very_good 15039 Renault 2019\n", "999 39886.0 very_good 44529 BMW 2006\n", "\n", "[1000 rows x 5 columns]" ] }, "execution_count": 13, "metadata": {}, "output_type": "execute_result" } ], "source": [ "UsedCars_df =generate_used_cars_data()\n", "UsedCars_df" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "# Cechy tworzone na podstawie danych czasowych" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Pierwszy zbiór danych nazwany tutaj IceCream_df de facto ma charakter szeregu czasowego i patrząc na poniższy wykres mógłby być z powodzeniem przewidywany dedykowanymi metodami do predykcji szeregów czasowych, jednak dla celów pokazania tworzenia zmiennych na podstawie danych o charakterze czasowym potraktujemy to zagadnienie jako problem regresyjny, w którym naszą zmienną celu będzie IceCreamSales." ] }, { "cell_type": "code", "execution_count": 14, "metadata": { "ExecuteTime": { "end_time": "2021-10-13T07:15:53.756282Z", "start_time": "2021-10-13T07:15:52.570422Z" } }, "outputs": [ { "data": { "text/plain": [ "" ] }, "execution_count": 14, "metadata": {}, "output_type": "execute_result" }, { "data": { "image/png": "", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "IceCream_df.set_index(\"SalesDate\").plot(figsize=(15,9), title=\"IceCream Sales\")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Wyraźnie widać tutaj, że sprzedaż lodów ma silnie sezonowy charakter, stąd cechy wyciągnięte z daty powinny znacznie ułatwić dobrą predykcję. Funkcję generującą takie cechy zaprezentowano poniżej:" ] }, { "cell_type": "code", "execution_count": 17, "metadata": { "ExecuteTime": { "end_time": "2021-10-13T07:15:54.203412Z", "start_time": "2021-10-13T07:15:54.184414Z" } }, "outputs": [], "source": [ "def extract_date_features(df, date_column):\n", " df_temp = df.copy()\n", " df_temp[date_column + 'Quarter'] = df_temp[date_column].dt.quarter\n", " df_temp[date_column + 'Month'] = df_temp[date_column].dt.month\n", " df_temp[date_column + 'Week'] = df_temp[date_column].dt.isocalendar().week\n", " # poniżej zwracany rozkład to 0-6, dodajemy 1 aby przejsc na bardziej intuicyjne wrtości 1-7\n", " df_temp[date_column + 'WeekDay'] = df_temp[date_column].dt.dayofweek + 1 \n", " df_temp[date_column + 'YearDay'] = df_temp[date_column].dt.dayofyear\n", " df_temp[date_column + 'isWeekend'] = np.where(df_temp[date_column + 'WeekDay']>5,1,0)\n", " return df_temp" ] }, { "cell_type": "code", "execution_count": 18, "metadata": { "ExecuteTime": { "end_time": "2021-10-13T07:15:54.836613Z", "start_time": "2021-10-13T07:15:54.737426Z" } }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
SalesDateIceCreamSalesSalesDateQuarterSalesDateMonthSalesDateWeekSalesDateWeekDaySalesDateYearDaySalesDateisWeekend
02018-01-01253100111110
12018-01-02223200111220
22018-01-03173300111330
32018-01-04223400111440
42018-01-05223500111550
...........................
10912020-12-271347004125273621
10922020-12-281431004125313630
10932020-12-29932004125323640
10942020-12-30733004125333650
10952020-12-311334004125343660
\n", "

1096 rows × 8 columns

\n", "
" ], "text/plain": [ " SalesDate IceCreamSales SalesDateQuarter SalesDateMonth \\\n", "0 2018-01-01 253100 1 1 \n", "1 2018-01-02 223200 1 1 \n", "2 2018-01-03 173300 1 1 \n", "3 2018-01-04 223400 1 1 \n", "4 2018-01-05 223500 1 1 \n", "... ... ... ... ... \n", "1091 2020-12-27 134700 4 12 \n", "1092 2020-12-28 143100 4 12 \n", "1093 2020-12-29 93200 4 12 \n", "1094 2020-12-30 73300 4 12 \n", "1095 2020-12-31 133400 4 12 \n", "\n", " SalesDateWeek SalesDateWeekDay SalesDateYearDay SalesDateisWeekend \n", "0 1 1 1 0 \n", "1 1 2 2 0 \n", "2 1 3 3 0 \n", "3 1 4 4 0 \n", "4 1 5 5 0 \n", "... ... ... ... ... \n", "1091 52 7 362 1 \n", "1092 53 1 363 0 \n", "1093 53 2 364 0 \n", "1094 53 3 365 0 \n", "1095 53 4 366 0 \n", "\n", "[1096 rows x 8 columns]" ] }, "execution_count": 18, "metadata": {}, "output_type": "execute_result" } ], "source": [ "IceCream_df_extended = extract_date_features(IceCream_df,\"SalesDate\")\n", "IceCream_df_extended" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "# Cechy powstałe przez przesunięcie w czasie" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Analizując wykres można zaobserwować, że sprzedaż lodów nie jest liniowo zależna od zmiennych takich jak numer kwartału, numer miesiąca czy numer tygodnia, aby uzyskać lepsze wyniki warto zbudować cechy w oparciu o przesunięte w czasie wartości zmiennej celu." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "
\n", "Uwaga! \n", " \n", "Przy korzystaniu ze zmiennych przesuniętych w czasie, w szczególności opartych o wcześniejsze wartości zmiennej celu nalezy zawsze wziąc pod uwagę jakie dane będziemy mieli dostępne na moment predykcji, inaczej możemy popełnić jeden z najczęstszych błędów czyli data leakage. \n", "Przy założeniu, że mamy przewidywać sprzedaż lodów np na rok do przodu wykorzystanie sprzedaży lodów z dnia poprzedniego stanowi data leakage, ponieważ ta informacja nie będzie dostępna na moment predykcji w tej samej formie. Moglibyśmy natomiast uwzględnić sprzedaż lodów sprzed roku, jako, że ta informacja będzie dostępna w tej samej formie.\n", "
" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Tutaj dla uproszczenia zakładamy chwilowo, że horyzont predykcji to tylko 1 dzień do przodu, co pozwoli zaprezentować większy zakres zmiennych przesuniętych w czasie." ] }, { "cell_type": "code", "execution_count": null, "metadata": { "ExecuteTime": { "end_time": "2021-10-13T07:15:57.805667Z", "start_time": "2021-10-13T07:15:57.788095Z" } }, "outputs": [], "source": [ "def get_shifted_target_values(df, lag_values, date_column, target_column):\n", " df_temp = df.copy()\n", " df_temp =df_temp.sort_values(by=date_column)\n", " for lag in lag_values:\n", " df_temp[target_column +\"_lagged_\" + str(lag)] = df_temp[target_column].shift(lag)\n", " return df_temp" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Uwzględniając, że przewidujemy z horyzontem czasowym tylko na dzień w przód, pierwszym kandydatem na wartość przesunięcia jest 1 dzień, jako, że w danych o charakterze szeregu czasowego podobieństwo kolejnych obserwacji będzie siłą rzeczy relatywnie wysokie. Z analizy wykresu można łatwo wywnioskować, że wartośc przesunięcia 365 dni również będzie miała dużą siłę predykcyjną. Ponadto można tutaj wypróbować 7 dni co powinno być przydatne w przypadku tygodniowej sezonowości danych" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "ExecuteTime": { "end_time": "2021-10-13T07:15:59.183156Z", "start_time": "2021-10-13T07:15:59.131159Z" } }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
SalesDateIceCreamSalesSalesDateQuarterSalesDateMonthSalesDateWeekSalesDateWeekDaySalesDateYearDaySalesDateisWeekendIceCreamSales_lagged_1IceCreamSales_lagged_7IceCreamSales_lagged_365
02018-01-01253100111110<NA><NA><NA>
12018-01-02213200111220253100<NA><NA>
22018-01-03193300111330213200<NA><NA>
32018-01-04253400111440193300<NA><NA>
42018-01-05213500111550253400<NA><NA>
....................................
10912020-12-271547004125273621144600233700114600
10922020-12-28731004125313630154700194100124700
10932020-12-296320041253236407310015420083100
10942020-12-30143300412533365063200164300143200
10952020-12-311034004125343660143300184400203300
\n", "

1096 rows × 11 columns

\n", "
" ], "text/plain": [ " SalesDate IceCreamSales SalesDateQuarter SalesDateMonth \\\n", "0 2018-01-01 253100 1 1 \n", "1 2018-01-02 213200 1 1 \n", "2 2018-01-03 193300 1 1 \n", "3 2018-01-04 253400 1 1 \n", "4 2018-01-05 213500 1 1 \n", "... ... ... ... ... \n", "1091 2020-12-27 154700 4 12 \n", "1092 2020-12-28 73100 4 12 \n", "1093 2020-12-29 63200 4 12 \n", "1094 2020-12-30 143300 4 12 \n", "1095 2020-12-31 103400 4 12 \n", "\n", " SalesDateWeek SalesDateWeekDay SalesDateYearDay SalesDateisWeekend \\\n", "0 1 1 1 0 \n", "1 1 2 2 0 \n", "2 1 3 3 0 \n", "3 1 4 4 0 \n", "4 1 5 5 0 \n", "... ... ... ... ... \n", "1091 52 7 362 1 \n", "1092 53 1 363 0 \n", "1093 53 2 364 0 \n", "1094 53 3 365 0 \n", "1095 53 4 366 0 \n", "\n", " IceCreamSales_lagged_1 IceCreamSales_lagged_7 IceCreamSales_lagged_365 \n", "0 \n", "1 253100 \n", "2 213200 \n", "3 193300 \n", "4 253400 \n", "... ... ... ... \n", "1091 144600 233700 114600 \n", "1092 154700 194100 124700 \n", "1093 73100 154200 83100 \n", "1094 63200 164300 143200 \n", "1095 143300 184400 203300 \n", "\n", "[1096 rows x 11 columns]" ] }, "execution_count": 12, "metadata": {}, "output_type": "execute_result" } ], "source": [ "IceCream_df_extended = get_shifted_target_values(IceCream_df_extended, [1,7,365], \"SalesDate\",\"IceCreamSales\")\n", "IceCream_df_extended" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Widzimy, że początek zbioru danych zawiera teraz wartości puste, ze względu na fakt, że dla wartości z roku 2018 nie istniały obserwacje cofnięte o rok. Do pokazywania liczby niepustych wartości w ramce danych przydatna jest funkcja info z biblioteki pandas" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "ExecuteTime": { "end_time": "2021-10-13T07:16:00.709833Z", "start_time": "2021-10-13T07:16:00.680833Z" } }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "\n", "Int64Index: 1096 entries, 0 to 1095\n", "Data columns (total 11 columns):\n", " # Column Non-Null Count Dtype \n", "--- ------ -------------- ----- \n", " 0 SalesDate 1096 non-null datetime64[ns]\n", " 1 IceCreamSales 1096 non-null Int64 \n", " 2 SalesDateQuarter 1096 non-null int64 \n", " 3 SalesDateMonth 1096 non-null int64 \n", " 4 SalesDateWeek 1096 non-null UInt32 \n", " 5 SalesDateWeekDay 1096 non-null int64 \n", " 6 SalesDateYearDay 1096 non-null int64 \n", " 7 SalesDateisWeekend 1096 non-null int32 \n", " 8 IceCreamSales_lagged_1 1095 non-null Int64 \n", " 9 IceCreamSales_lagged_7 1089 non-null Int64 \n", " 10 IceCreamSales_lagged_365 731 non-null Int64 \n", "dtypes: Int64(4), UInt32(1), datetime64[ns](1), int32(1), int64(4)\n", "memory usage: 99.5 KB\n" ] } ], "source": [ "IceCream_df_extended.info()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "oczywiście wartości puste należy potem w jakiś sposób obsłużyć, poprzez ich usunięcie lub imputację" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "
\n", "Info \n", "\n", "Tworząc zmienne oparte o cechy przesunięte w czasie warto mieć na uwadze, że dane historyczne mogą zawierać wartości odstające. Dlatego zamiast brać wprost wartość sprzed np. 365 dni można rozważyć wygładzenie wartości stosując medianę z 5 dniowego okna, którego środek stanowi wartość sprzed 365 dni.\n", "
" ] }, { "cell_type": "markdown", "metadata": { "ExecuteTime": { "end_time": "2021-10-11T12:30:06.208232Z", "start_time": "2021-10-11T12:30:06.192598Z" } }, "source": [ "# Cechy kategoryczne i ich transformacje" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Dla zilustrowania transformacji na zmiennych kategorycznych posłużymy się drugim z przygotowanych zbiorów danych, gdzie chcemy przewidzieć cenę sprzedaży używanego samochodu." ] }, { "cell_type": "code", "execution_count": null, "metadata": { "ExecuteTime": { "end_time": "2021-10-13T07:16:04.773577Z", "start_time": "2021-10-13T07:16:04.754574Z" } }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
selling_priceconditionmileagebrandyear_manufactured
032123.0good129627Mercedes1996
162394.0medium68446Bugatti2013
28746.0medium218559Fiat1987
39193.0good573386Skoda1952
412340.0good27153Fiat2005
\n", "
" ], "text/plain": [ " selling_price condition mileage brand year_manufactured\n", "0 32123.0 good 129627 Mercedes 1996\n", "1 62394.0 medium 68446 Bugatti 2013\n", "2 8746.0 medium 218559 Fiat 1987\n", "3 9193.0 good 573386 Skoda 1952\n", "4 12340.0 good 27153 Fiat 2005" ] }, "execution_count": 14, "metadata": {}, "output_type": "execute_result" } ], "source": [ "UsedCars_df.head()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "jak widzimy występują tutaj 2 cechy kategoryczne condition oraz brand, na podstawie których zaprezentujemy które transformacje danych najlepiej zastosować w którym przypadku. Aby umożliwić wykorzystanie tych cech w predykcji niezbędne jest odpowiednie ich przekształcenie w wartości numeryczne" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "ExecuteTime": { "end_time": "2021-10-13T07:16:06.297398Z", "start_time": "2021-10-13T07:16:06.279408Z" } }, "outputs": [ { "data": { "text/plain": [ "array(['good', 'medium', 'bad', 'very_good', 'very_bad'], dtype=object)" ] }, "execution_count": 15, "metadata": {}, "output_type": "execute_result" } ], "source": [ "UsedCars_df.condition.unique()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "patrząc na atrybuty zmiennej condition widzimy, że ma ona charakter porządkowy - jesteśmy w stanie łatwo ustalić naturalną kolejność jej atrybutów. Stanowi ona zatem dobrego kandydata do zastosowania kodowania porządkowego" ] }, { "cell_type": "markdown", "metadata": { "ExecuteTime": { "end_time": "2021-10-11T12:47:35.578945Z", "start_time": "2021-10-11T12:47:35.566890Z" } }, "source": [ "
\n", "Definicja \n", "\n", "kodowania porządkowe (ang. *Ordinal encoding*) - reprezentacja każdego atrybutu kodowanej zmiennej jako kolejnej liczby naturalnej \n", "
" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "poniżej zaprezentujemy kodowanie porządkowe z użyciem transformera OrdinalEncoder, najpierw jednak podzielimy nasze dane na zbiór treningowy i testowy, aby lepiej odwzorować to, że dane treningowe są oddzielone od danych produkcyjnych, na których model będzie potem stosowany." ] }, { "cell_type": "code", "execution_count": null, "metadata": { "ExecuteTime": { "end_time": "2021-10-13T07:16:22.871995Z", "start_time": "2021-10-13T07:16:10.112336Z" } }, "outputs": [], "source": [ "from sklearn.preprocessing import OrdinalEncoder\n", "from sklearn.model_selection import train_test_split" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "tutaj dla uproszczenia stosujemy tylko prosty podział na zbiór treningowy i testowy, generalnie najlepszą praktyką jest wydzielenie osobnego zbioru testowego reprezentującego zdolność modelu do generalizacji na nowych, niewidzianych wcześniej danych i dobór najlepszego zestawu parametrów i transformacji stosując crosswalidację na zbiorze treningowym." ] }, { "cell_type": "code", "execution_count": null, "metadata": { "ExecuteTime": { "end_time": "2021-10-13T07:16:23.275504Z", "start_time": "2021-10-13T07:16:23.261497Z" } }, "outputs": [], "source": [ "X_train, X_test = train_test_split(UsedCars_df, test_size =0.25, random_state=42)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "następnie tworzymy obiekt klasy OrdinalEncoder, określamy tutaj porządek cechy atrybutów cechy, którą chcemy przetransformować, inaczej mogą one zostać po prostu posortowane alfabetycznie co najczęściej nie będzie odpowiadało ich znaczeniu biznesowemu" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "ExecuteTime": { "end_time": "2021-10-13T07:16:23.894916Z", "start_time": "2021-10-13T07:16:23.860918Z" } }, "outputs": [], "source": [ "oe= OrdinalEncoder(categories =[['very_bad', 'bad', 'medium', 'good', 'very_good']],\n", " handle_unknown ='use_encoded_value', unknown_value=np.NaN)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "
\n", "Uwaga! \n", " \n", "Kodując atrybuty należy mieć świadomość, że na nowych danych mogą pojawić się niewidziane wcześniej wartości, które należy w jakiś sposób obsłużyć. Domyślnym zachowaniem OrdinalEncoder w takiej sytuacji jest zwrócenie wyjątku, tutaj skorzystaliśmy z przypisania mu ustalonej wartości, gdzie wybraliśmy przypisanie wartości pustej. Następnie taką wartość można zastąpić np. dominantą ze zbioru treningowego, lub przypisać jej wartość neutralną, którą tutaj byłoby 2 odpowiadające kategorii medium.\n", "
" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Zdecydowanie najlepszym sposobem użycia wszystkich transformerów jest skorzystanie z pipeline, co zostanie zaprezentowane potem. Tutaj zaprezentujemy najprostsze wykorzystanie polegające na skorzystaniu z metod fit i transform. OrdinalEncoder stosujemy tylko do przekształcenia jednej cechy, gdyby było inaczej moglibyśmy wykonać fit na całym zbiorze treningowym a następnie przetransformować zbiory treningowy i testowy." ] }, { "cell_type": "code", "execution_count": null, "metadata": { "ExecuteTime": { "end_time": "2021-10-13T07:16:24.439446Z", "start_time": "2021-10-13T07:16:24.425440Z" } }, "outputs": [], "source": [ "oe.fit(X_train.condition.values.reshape(-1, 1))\n", "X_train[\"condition_transformed\"] = oe.transform(X_train.condition.values.reshape(-1, 1))\n", "X_test[\"condition_transformed\"] = oe.transform(X_test.condition.values.reshape(-1, 1))" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "
\n", "Uwaga! \n", " \n", "Jeśli nie korzystamy z pipeline należy zwrócić szczególną uwagę żeby metody fit używać tylko na zbiorze treningowym a następnie mając już \"nauczony\" transformer stosować metodę transform na pozostałych zbiorach. Inaczej może dojść do przecieku informacji ze zbioru testowego.\n", "
" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "możemy jeszcze sprawdzić czy przypisanie atrybutów na zbiorach treningowym i testowym jest prawidłowe, a następnie pozbyć się pierwotnej kolumny, wartości pierwotne mogą być łatwo odzyskane z przetransformowanych danych stosując metodę inverse_transform" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "ExecuteTime": { "end_time": "2021-10-13T07:16:24.997502Z", "start_time": "2021-10-13T07:16:24.973502Z" } }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
conditioncondition_transformed
323very_bad0.0
894bad1.0
82medium2.0
991good3.0
398very_good4.0
\n", "
" ], "text/plain": [ " condition condition_transformed\n", "323 very_bad 0.0\n", "894 bad 1.0\n", "82 medium 2.0\n", "991 good 3.0\n", "398 very_good 4.0" ] }, "execution_count": 20, "metadata": {}, "output_type": "execute_result" } ], "source": [ "X_train[[\"condition\",\"condition_transformed\"]].drop_duplicates().sort_values(by=\"condition_transformed\")" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "ExecuteTime": { "end_time": "2021-10-13T07:16:25.785826Z", "start_time": "2021-10-13T07:16:25.749495Z" } }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
conditioncondition_transformed
346very_bad0.0
521bad1.0
740medium2.0
513good3.0
737very_good4.0
\n", "
" ], "text/plain": [ " condition condition_transformed\n", "346 very_bad 0.0\n", "521 bad 1.0\n", "740 medium 2.0\n", "513 good 3.0\n", "737 very_good 4.0" ] }, "execution_count": 21, "metadata": {}, "output_type": "execute_result" } ], "source": [ "X_test[[\"condition\",\"condition_transformed\"]].drop_duplicates().sort_values(by=\"condition_transformed\")" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "ExecuteTime": { "end_time": "2021-10-13T07:16:26.610243Z", "start_time": "2021-10-13T07:16:26.595250Z" } }, "outputs": [], "source": [ "X_train.drop([\"condition\"],axis=1, inplace=True)\n", "X_test.drop([\"condition\"],axis=1, inplace=True)" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "ExecuteTime": { "end_time": "2021-10-13T07:16:27.463826Z", "start_time": "2021-10-13T07:16:27.441818Z" } }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
selling_pricemileagebrandyear_manufacturedcondition_transformed
827986.0524486VW19562.0
99110531.0166856Toyota19963.0
7899532.094191Skoda20002.0
8947266.054210VW19541.0
39811133.0264049Skoda19854.0
..................
10631713.0127914Mercedes19903.0
2709918.0185880Seat19623.0
8604824.0116011VW20070.0
43511329.025782Skoda20142.0
1028860.0145116Skoda19792.0
\n", "

750 rows × 5 columns

\n", "
" ], "text/plain": [ " selling_price mileage brand year_manufactured \\\n", "82 7986.0 524486 VW 1956 \n", "991 10531.0 166856 Toyota 1996 \n", "789 9532.0 94191 Skoda 2000 \n", "894 7266.0 54210 VW 1954 \n", "398 11133.0 264049 Skoda 1985 \n", ".. ... ... ... ... \n", "106 31713.0 127914 Mercedes 1990 \n", "270 9918.0 185880 Seat 1962 \n", "860 4824.0 116011 VW 2007 \n", "435 11329.0 25782 Skoda 2014 \n", "102 8860.0 145116 Skoda 1979 \n", "\n", " condition_transformed \n", "82 2.0 \n", "991 3.0 \n", "789 2.0 \n", "894 1.0 \n", "398 4.0 \n", ".. ... \n", "106 3.0 \n", "270 3.0 \n", "860 0.0 \n", "435 2.0 \n", "102 2.0 \n", "\n", "[750 rows x 5 columns]" ] }, "execution_count": 23, "metadata": {}, "output_type": "execute_result" } ], "source": [ "X_train" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "widzimy, że do zakodowania pozostała nam jeszcze cecha - brand, w odróżnieniu od poprzednio rozważanej cechy tutaj nie ma oczywistego naturalnego porządku, dlatego należy tutaj zastosować inne podejście" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "
\n", "Definicja \n", "\n", "kodowania 1 z n (ang. *One-hot encoding*) - reprezentacja każdego atrybutu kodowanej zmiennej jako osobnej zmiennej binarnej, gdzie występowanie rozważanego atrybutu dla danej obserwacji oznaczane jest jako 1 a wszystkie pozostałe atrybuty oznaczane są jako 0 \n", "
" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "kodowanie 1 z n stanowi jeden z najczęściej używanych i najbardziej intuicyjnych sposobów kodowania, jednak jego główną wadą jest zwiększanie wymiarowości danych, co zaraz zaprezentujemy" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "najpierw pokażemy jak posługiwać się transformerem OneHotEncoder" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "ExecuteTime": { "end_time": "2021-10-13T07:16:31.358006Z", "start_time": "2021-10-13T07:16:31.349906Z" } }, "outputs": [], "source": [ "from sklearn.preprocessing import OneHotEncoder" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "tworzymy obiekt klasy OneHotEncoder, podobnie jak w przypadku poprzedniego transformera, tu także domyślnym sposobem obsługi nieznanych atrybutów jest zwracanie wyjątku, my wybieramy handle_unknown=\"ignore\" co sprawi, że nieznane atrybuty reprezentowane będą po prostu jako 0 we wszystkich zakodowanych kolumnach.\n", "\n", "Natomiast ustawienie sparse=False sprawia, że zwracane dane będą typu np.array zamiast domyślnego sparse matrix" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "ExecuteTime": { "end_time": "2021-10-13T07:16:32.849003Z", "start_time": "2021-10-13T07:16:32.841484Z" } }, "outputs": [], "source": [ "ohe = OneHotEncoder(handle_unknown=\"ignore\",sparse=False)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "należy zwrócić uwagę, że we wszystkich transformerach z biblioteki sklearn stosowane jest to samo API, w związku z tym tutaj analogicznie jak w poprzednim przypadku możemy skorzystać z metod fit i transform" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "ExecuteTime": { "end_time": "2021-10-13T07:16:34.371505Z", "start_time": "2021-10-13T07:16:34.354961Z" } }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "rozmiar zakodowanej kolumny brand na danych treningowych to: (750, 10)\n", "rozmiar zakodowanej kolumny brand na danych testowych to: (250, 10)\n", "[[0. 0. 0. ... 0. 0. 1.]\n", " [0. 0. 0. ... 0. 1. 0.]\n", " [0. 0. 0. ... 1. 0. 0.]\n", " ...\n", " [0. 0. 0. ... 0. 0. 1.]\n", " [0. 0. 0. ... 1. 0. 0.]\n", " [0. 0. 0. ... 1. 0. 0.]]\n" ] } ], "source": [ "ohe.fit(X_train.brand.values.reshape(-1, 1))\n", "brand_transformed_train = ohe.transform(X_train.brand.values.reshape(-1, 1))\n", "brand_transformed_test = ohe.transform(X_test.brand.values.reshape(-1, 1))\n", "print(f\"rozmiar zakodowanej kolumny brand na danych treningowych to: {brand_transformed_train.shape}\")\n", "print(f\"rozmiar zakodowanej kolumny brand na danych testowych to: {brand_transformed_test.shape}\")\n", "print(brand_transformed_train)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "jak widzimy kolumna brand reprezentowana jest teraz jako array gdzie każdy atrybut ze zbioru treningowego zaprezentowany jest w osobnej kolumnie binarnej. Można to sprawdzić zliczając liczbę unikalnych atrybutów tej kolumny na zbiorze treningowym" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "ExecuteTime": { "end_time": "2021-10-13T07:16:35.963830Z", "start_time": "2021-10-13T07:16:35.957828Z" } }, "outputs": [ { "data": { "text/plain": [ "10" ] }, "execution_count": 27, "metadata": {}, "output_type": "execute_result" } ], "source": [ "X_train.brand.nunique()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "kolejność atrybutów odpowiadających kolumnom wynikowego arraya można zobaczyć korzystając z atrybutu categories_" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "ExecuteTime": { "end_time": "2021-10-13T07:16:37.722373Z", "start_time": "2021-10-13T07:16:37.709372Z" } }, "outputs": [ { "data": { "text/plain": [ "[array(['Audi', 'BMW', 'Bugatti', 'Fiat', 'Mercedes', 'Renault', 'Seat',\n", " 'Skoda', 'Toyota', 'VW'], dtype=object)]" ] }, "execution_count": 28, "metadata": {}, "output_type": "execute_result" } ], "source": [ "ohe.categories_" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "całą transformację wraz z dodaniem przetransformowanej zmiennej do zbioru treningowego można zrealizować za pomocą prostej funkcji" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "ExecuteTime": { "end_time": "2021-10-13T07:16:39.641779Z", "start_time": "2021-10-13T07:16:39.632782Z" } }, "outputs": [], "source": [ "def OneHotEncode(X_train, X_test, encoded_column_name, **encoder_kwargs):\n", " \n", " ohe = OneHotEncoder(**encoder_kwargs)\n", " ohe.fit(X_train[encoded_column_name].values.reshape(-1, 1))\n", " transformed_train = ohe.transform(X_train[encoded_column_name].values.reshape(-1, 1))\n", " transformed_test = ohe.transform(X_test[encoded_column_name].values.reshape(-1, 1))\n", " \n", " column_names = [encoded_column_name +\"_\"+category for category in list(ohe.categories_[0]) ]\n", " df_transformed_train = pd.DataFrame(transformed_train, columns = column_names)\n", " df_transformed_test = pd.DataFrame(transformed_test, columns = column_names)\n", " \n", " df_out_train = X_train.reset_index(drop=True).drop([encoded_column_name], axis=1)\n", " df_out_test = X_test.reset_index(drop=True).drop([encoded_column_name], axis=1)\n", " df_out_train = pd.concat([df_out_train, df_transformed_train],axis=1)\n", " df_out_test = pd.concat([df_out_test, df_transformed_test],axis=1)\n", " \n", " return df_out_train, df_out_test" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "powyższa funkcja zwraca zbiór treningowy i testowy po dodaniu odpowiednio nazwanych kolumn powstałych po transformacji obiektem OneHotEncoder i usunięciu pierwotnej zmiennej. Argumenty do OneHotEncoder przekazywane są z pomocą **encoder_kwargs" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "ExecuteTime": { "end_time": "2021-10-13T07:16:41.132045Z", "start_time": "2021-10-13T07:16:41.085522Z" } }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
selling_pricemileageyear_manufacturedcondition_transformedbrand_Audibrand_BMWbrand_Bugattibrand_Fiatbrand_Mercedesbrand_Renaultbrand_Seatbrand_Skodabrand_Toyotabrand_VW
07986.052448619562.00.00.00.00.00.00.00.00.00.01.0
110531.016685619963.00.00.00.00.00.00.00.00.01.00.0
29532.09419120002.00.00.00.00.00.00.00.01.00.00.0
37266.05421019541.00.00.00.00.00.00.00.00.00.01.0
411133.026404919854.00.00.00.00.00.00.00.01.00.00.0
\n", "
" ], "text/plain": [ " selling_price mileage year_manufactured condition_transformed \\\n", "0 7986.0 524486 1956 2.0 \n", "1 10531.0 166856 1996 3.0 \n", "2 9532.0 94191 2000 2.0 \n", "3 7266.0 54210 1954 1.0 \n", "4 11133.0 264049 1985 4.0 \n", "\n", " brand_Audi brand_BMW brand_Bugatti brand_Fiat brand_Mercedes \\\n", "0 0.0 0.0 0.0 0.0 0.0 \n", "1 0.0 0.0 0.0 0.0 0.0 \n", "2 0.0 0.0 0.0 0.0 0.0 \n", "3 0.0 0.0 0.0 0.0 0.0 \n", "4 0.0 0.0 0.0 0.0 0.0 \n", "\n", " brand_Renault brand_Seat brand_Skoda brand_Toyota brand_VW \n", "0 0.0 0.0 0.0 0.0 1.0 \n", "1 0.0 0.0 0.0 1.0 0.0 \n", "2 0.0 0.0 1.0 0.0 0.0 \n", "3 0.0 0.0 0.0 0.0 1.0 \n", "4 0.0 0.0 1.0 0.0 0.0 " ] }, "execution_count": 30, "metadata": {}, "output_type": "execute_result" } ], "source": [ "X_train_ohe, X_test_ohe = OneHotEncode(X_train, X_test, \"brand\", handle_unknown=\"ignore\",sparse=False)\n", "X_train_ohe.head()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "
\n", "Info \n", "\n", "Alternatywnie zamiast OneHotEncoder można wykorzystać funkcję get_dummies z biblioteki pandas, która jest nieco prostsza w użyciu, jednak OneHotEncoder jest lepiej dostosowany do obsługi niewidzianych wartości a ponadto znacznie łatwiej go zastosować w ramach pipeline\n", "
" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "jak widzimy nawet przy tak niskiej liczbie atrybutów wymiarowość naszych danych znacznie wzrosła. W prawdziwych zastosowaniach możemy się spotkać ze zbiorami danych mającymi wiele zmiennych kategorycznych o dziesiątkach lub setkach unikalnych atrybutów, więc metodę OneHotEncoder zaleca się stosować tylko tam, gdzie atrybuty są niezbyt liczne, w pozostałych sytuacjach lepiej skorzystać z kodowania zmienną celu" ] }, { "cell_type": "markdown", "metadata": { "ExecuteTime": { "end_time": "2021-10-12T09:05:01.108185Z", "start_time": "2021-10-12T09:05:01.092691Z" } }, "source": [ "
\n", "Definicja \n", "\n", "kodowanie zmienną celu (ang. *Target encoding*) - reprezentacja każdego atrybutu kodowanej zmiennej jako estymata średniej wartości zmiennej celu na danych treningowych\n", "
" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Kodowanie zmienną celu stanowi jedną z najbardziej uniwersalnych metod kodowania zmiennych kategorycznych, nie wymaga naturalnego porządku w danych jak kodowanie porządkowe i nie zwiększa wymiarowości danych jak kodowanie 1 z n.\n", "\n", "Istnieje wiele różnych sposobów kodowania zmiennej celu, my tutaj posłużymy się metodą James-Stein Encoder dostępną w bibliotece category_encoders" ] }, { "cell_type": "markdown", "metadata": { "ExecuteTime": { "end_time": "2021-10-12T09:15:40.326427Z", "start_time": "2021-10-12T09:15:40.319428Z" } }, "source": [ "
\n", "Definicja \n", "\n", "Formuła na zakodowaną wartość k-tego atrybutu kodowanej zmiennej:\n", "$$\n", "X_{k} = (1-B) *Avg(Y_{k}) +B*Avg(Y)\n", "$$\n", "\n", " \n", "gdzie:\n", " \n", "$X_{k}$ - wartość przypisana k-temu atrybutowi kodowanej zmiennej kategorycznej\n", " \n", "$Avg(Y_{k})$ - średnia wartości zmiennej celu dla k-tego atrybutu zmiennej kategorycznej\n", " \n", "$Avg(Y)$ - globalna średnia zmiennej celu na zbiorze treningowym\n", " \n", "$B$ -waga globalnej średniej, wyliczona według formuły:\n", "$$\n", "B = \\frac{Var(Y_{k})}{Var(Y) + Var(Y_{k})}\n", "$$\n", "gdzie:\n", "\n", "$Var(Y_{k})$ - wariancja zmiennej celu dla k-tego atrybutu zmiennej kategorycznej\n", "\n", "$Var(Y)$ - wariancja zmiennej celu dla całego zbioru treningowego" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "importujemy potrzebną klasę" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "ExecuteTime": { "end_time": "2021-10-13T07:16:47.637140Z", "start_time": "2021-10-13T07:16:46.169136Z" } }, "outputs": [], "source": [ "from category_encoders.james_stein import JamesSteinEncoder" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "tworzymy obiekt klasy JamesSteinEncoder, wybierając kolumnę brand do przekształcenia, domyślnie przekształcone zostaną wszystkie kolumny kategoryczne" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "ExecuteTime": { "end_time": "2021-10-13T07:16:48.554893Z", "start_time": "2021-10-13T07:16:48.542897Z" } }, "outputs": [], "source": [ "jse = JamesSteinEncoder(cols=[\"brand\"])" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "tak jak w transformerach z biblioteki sklearn także tutaj posługujemy się metodami fit i transform, jednak jako, że jest to kodowanie zmienną celu niezbędne jest jej podanie do metody fit, dlatego najpierw wydzielimy zmienną celu" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "ExecuteTime": { "end_time": "2021-10-13T07:16:49.316898Z", "start_time": "2021-10-13T07:16:49.305893Z" } }, "outputs": [], "source": [ "y_train = X_train.selling_price\n", "y_test = X_test.selling_price\n", "X_train = X_train.drop(\"selling_price\",axis=1)\n", "X_test = X_test.drop(\"selling_price\",axis=1)" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "ExecuteTime": { "end_time": "2021-10-13T07:16:50.323299Z", "start_time": "2021-10-13T07:16:50.254236Z" } }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
mileagebrandyear_manufacturedcondition_transformed
825244869530.00970719562.0
99116685610018.69139819963.0
789941919636.70000120002.0
894542109530.00970719541.0
3982640499636.70000119854.0
\n", "
" ], "text/plain": [ " mileage brand year_manufactured condition_transformed\n", "82 524486 9530.009707 1956 2.0\n", "991 166856 10018.691398 1996 3.0\n", "789 94191 9636.700001 2000 2.0\n", "894 54210 9530.009707 1954 1.0\n", "398 264049 9636.700001 1985 4.0" ] }, "execution_count": 34, "metadata": {}, "output_type": "execute_result" } ], "source": [ "jse.fit(X_train,y_train)\n", "X_train_jse = jse.transform(X_train)\n", "X_test_jse = jse.transform(X_test)\n", "X_train_jse.head()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "jak widzimy zmienna brand została teraz zastąpiona estymatami średniej wartości zmiennej celu w zależności od brandu" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "# Łączenie atrybutów cech kategorycznych" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Oprócz standardowych metod transformacji zmiennych kategorycznych opisanych w poprzedniej sekcji można też stosować różne przekształcenia polegające na łączeniu pierwotnych atrybutów w podgrupy. Takie łączenie może być oparte na podobieństwie atrybutów pod katęm statystycznym np. zbliżony poziom średniej wartości zmiennej celu lub, co bardziej zalecane - na wiedzy domenowej." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Tutaj zaprezentujemy prosty przykład łączenia atrybutów oparty na wiedzy domenowej - załóżmy, że znamy podział wszystkich marek samochodów ze zmiennej brand na 3 relatywnie jednolite podgrupy - marki podstawowe, marki premium i marki luksusowe. Na tej podstawie stworzymy nową zmienną korzystając z prostej funkcji:" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "ExecuteTime": { "end_time": "2021-10-13T07:16:54.379596Z", "start_time": "2021-10-13T07:16:54.368589Z" } }, "outputs": [], "source": [ "def brand_binning(brand):\n", " result =\"standard\"\n", " standard_brands = [\"Fiat\",\"Renault\",\"VW\", \"Seat\", \"Skoda\",\"Toyota\"]\n", " premium_brands = [\"Audi\",\"BMW\",\"Mercedes\"]\n", " luxury_brands = [\"Bugatti\"]\n", " if brand in luxury_brands:\n", " result = \"luxury\"\n", " elif brand in premium_brands:\n", " result = \"premium\"\n", " return result" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "ExecuteTime": { "end_time": "2021-10-13T07:16:55.433592Z", "start_time": "2021-10-13T07:16:55.399599Z" } }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
mileagebrandyear_manufacturedcondition_transformedbrand_binned
82524486VW19562.0standard
991166856Toyota19963.0standard
78994191Skoda20002.0standard
89454210VW19541.0standard
398264049Skoda19854.0standard
\n", "
" ], "text/plain": [ " mileage brand year_manufactured condition_transformed brand_binned\n", "82 524486 VW 1956 2.0 standard\n", "991 166856 Toyota 1996 3.0 standard\n", "789 94191 Skoda 2000 2.0 standard\n", "894 54210 VW 1954 1.0 standard\n", "398 264049 Skoda 1985 4.0 standard" ] }, "execution_count": 36, "metadata": {}, "output_type": "execute_result" } ], "source": [ "X_train[\"brand_binned\"] = X_train[\"brand\"].map(lambda x:brand_binning(x))\n", "X_test[\"brand_binned\"] = X_test[\"brand\"].map(lambda x:brand_binning(x))\n", "X_train.head()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "możemy też sprawdzić jak wygląda unikalne przypisanie pomiędzy pierwotną a zgrupowaną zmienną:" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "ExecuteTime": { "end_time": "2021-10-13T07:16:56.678205Z", "start_time": "2021-10-13T07:16:56.663102Z" } }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
brandbrand_binned
5Bugattiluxury
323Audipremium
798Mercedespremium
717BMWpremium
82VWstandard
991Toyotastandard
789Skodastandard
731Fiatstandard
97Renaultstandard
523Seatstandard
\n", "
" ], "text/plain": [ " brand brand_binned\n", "5 Bugatti luxury\n", "323 Audi premium\n", "798 Mercedes premium\n", "717 BMW premium\n", "82 VW standard\n", "991 Toyota standard\n", "789 Skoda standard\n", "731 Fiat standard\n", "97 Renault standard\n", "523 Seat standard" ] }, "execution_count": 37, "metadata": {}, "output_type": "execute_result" } ], "source": [ "X_train[[\"brand\",\"brand_binned\"]].drop_duplicates().sort_values(by=\"brand_binned\")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "jak widzimy przypisanie zostało przeprowadzone poprawnie, nowa zmienna niesie mniej informacji niż zmienna pierwotna, dlatego zastąpienie nią pierwotnej zmiennej może być pomocne jeśli mamy problem z przeuczeniem modelu. Oczywiście tak powstałą zmienną należy potem jeszcze przetransformować zgodnie z wytycznymi z poprzedniej sekcji." ] }, { "cell_type": "markdown", "metadata": { "ExecuteTime": { "end_time": "2021-10-12T10:12:01.320269Z", "start_time": "2021-10-12T10:12:01.311270Z" } }, "source": [ "# Cechy oparte na wiedzy domenowej oraz cechy interakcji" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Zaprezentowane powyżej grupowanie marek polegało na przekształceniu zmiennej kategorycznej w oparciu o wiedzę domenową. Tutaj pokażemy przykłady zastosowania wiedzy domenowej na zmiennych numerycznych i interakcji cech numerycznych i katgorycznych." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Przykładem prostej cechy opartej na wiedzy domenowej może być wiek samochodu w momencie sprzedaży. Nie mamy tutaj informacji o dacie transakcji, dlatego można dla ułatwienia założyć, że wszystkie transakcje odbyły się w bieżącym roku." ] }, { "cell_type": "code", "execution_count": null, "metadata": { "ExecuteTime": { "end_time": "2021-10-13T07:17:00.413063Z", "start_time": "2021-10-13T07:17:00.375401Z" } }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
mileagebrandyear_manufacturedcondition_transformedbrand_binnedage
82524486VW19562.0standard65
991166856Toyota19963.0standard25
78994191Skoda20002.0standard21
89454210VW19541.0standard67
398264049Skoda19854.0standard36
.....................
106127914Mercedes19903.0premium31
270185880Seat19623.0standard59
860116011VW20070.0standard14
43525782Skoda20142.0standard7
102145116Skoda19792.0standard42
\n", "

750 rows × 6 columns

\n", "
" ], "text/plain": [ " mileage brand year_manufactured condition_transformed brand_binned \\\n", "82 524486 VW 1956 2.0 standard \n", "991 166856 Toyota 1996 3.0 standard \n", "789 94191 Skoda 2000 2.0 standard \n", "894 54210 VW 1954 1.0 standard \n", "398 264049 Skoda 1985 4.0 standard \n", ".. ... ... ... ... ... \n", "106 127914 Mercedes 1990 3.0 premium \n", "270 185880 Seat 1962 3.0 standard \n", "860 116011 VW 2007 0.0 standard \n", "435 25782 Skoda 2014 2.0 standard \n", "102 145116 Skoda 1979 2.0 standard \n", "\n", " age \n", "82 65 \n", "991 25 \n", "789 21 \n", "894 67 \n", "398 36 \n", ".. ... \n", "106 31 \n", "270 59 \n", "860 14 \n", "435 7 \n", "102 42 \n", "\n", "[750 rows x 6 columns]" ] }, "execution_count": 38, "metadata": {}, "output_type": "execute_result" } ], "source": [ "X_train[\"age\"] = 2021 - X_train[\"year_manufactured\"]\n", "X_test[\"age\"] = 2021 - X_test[\"year_manufactured\"]\n", "X_train" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Zmienne interakcji można wygenerować stosując np. iloczyny poszczególnych zmiennych numerycznych, tutaj wydaje się to nie być najlepszy pomysł, ponieważ intuicyjnie czujemy, że np mnożenie przebiegu * rok produkcji nie będzie zbyt dobrą cechą predykcyjną. Można natomiast wyliczyć np średni roczny przebieg dzieląc przebieg przez dodany powyżej wiek samochodu." ] }, { "cell_type": "code", "execution_count": null, "metadata": { "ExecuteTime": { "end_time": "2021-10-13T07:17:02.036080Z", "start_time": "2021-10-13T07:17:02.002080Z" } }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
mileagebrandyear_manufacturedcondition_transformedbrand_binnedageavg_yearly_mileage
82524486VW19562.0standard658069.0
991166856Toyota19963.0standard256674.0
78994191Skoda20002.0standard214485.0
89454210VW19541.0standard67809.0
398264049Skoda19854.0standard367335.0
........................
106127914Mercedes19903.0premium314126.0
270185880Seat19623.0standard593151.0
860116011VW20070.0standard148286.0
43525782Skoda20142.0standard73683.0
102145116Skoda19792.0standard423455.0
\n", "

750 rows × 7 columns

\n", "
" ], "text/plain": [ " mileage brand year_manufactured condition_transformed brand_binned \\\n", "82 524486 VW 1956 2.0 standard \n", "991 166856 Toyota 1996 3.0 standard \n", "789 94191 Skoda 2000 2.0 standard \n", "894 54210 VW 1954 1.0 standard \n", "398 264049 Skoda 1985 4.0 standard \n", ".. ... ... ... ... ... \n", "106 127914 Mercedes 1990 3.0 premium \n", "270 185880 Seat 1962 3.0 standard \n", "860 116011 VW 2007 0.0 standard \n", "435 25782 Skoda 2014 2.0 standard \n", "102 145116 Skoda 1979 2.0 standard \n", "\n", " age avg_yearly_mileage \n", "82 65 8069.0 \n", "991 25 6674.0 \n", "789 21 4485.0 \n", "894 67 809.0 \n", "398 36 7335.0 \n", ".. ... ... \n", "106 31 4126.0 \n", "270 59 3151.0 \n", "860 14 8286.0 \n", "435 7 3683.0 \n", "102 42 3455.0 \n", "\n", "[750 rows x 7 columns]" ] }, "execution_count": 39, "metadata": {}, "output_type": "execute_result" } ], "source": [ "X_train[\"avg_yearly_mileage\"] = np.round(X_train[\"mileage\"]/X_train[\"age\"])\n", "X_test[\"avg_yearly_mileage\"] = np.round(X_test[\"mileage\"]/X_test[\"age\"])\n", "X_train" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Innym przykładem zmiennej opartej stricte na wiedzy domenowej łączecej ze sobą informacje ze zmiennych numerycznych i kategorycznych mogła by być informacja o klasycznych modelach. Załóżmy, że modele luksusowych marek wyprodukowane przed 1970 rokiem są modelami klasycznymi i jeśli ich stan jest co najmniej dobry to ich cena jest znacznie wyższa niż by to wynikało z wieku auta, gdzie normalnie spodziewamy się ujemnej relacji z ceną sprzedaży." ] }, { "cell_type": "code", "execution_count": null, "metadata": { "ExecuteTime": { "end_time": "2021-10-13T07:17:03.554608Z", "start_time": "2021-10-13T07:17:03.535315Z" } }, "outputs": [ { "data": { "text/plain": [ "0.0 739\n", "1.0 11\n", "Name: is_classic, dtype: int64" ] }, "execution_count": 40, "metadata": {}, "output_type": "execute_result" } ], "source": [ "X_train.loc[(X_train.brand_binned==\"luxury\")&(X_train.year_manufactured<=1970)&(X_train.condition_transformed>2.0),\"is_classic\"]=1\n", "X_train[\"is_classic\"] = X_train[\"is_classic\"].fillna(0)\n", "X_test.loc[(X_test.brand_binned==\"luxury\")&(X_test.year_manufactured<=1970)&(X_test.condition_transformed>2.0),\"is_classic\"]=1\n", "X_test[\"is_classic\"] = X_test[\"is_classic\"].fillna(0)\n", "X_train[\"is_classic\"].value_counts()" ] }, { "cell_type": "markdown", "metadata": { "ExecuteTime": { "end_time": "2021-10-12T10:57:29.776134Z", "start_time": "2021-10-12T10:57:29.751133Z" } }, "source": [ "Takie przypadki są stosunkowo rzadkie, ale tego typu zmienna może pomóc w dokładniejszym przewidzeniu tych obserwacji." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "# Cechy oparte na transformacji zmiennych numerycznych" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Dość powszechnie spotykaną praktyką jest stosowanie nieliniowych transformacji zmiennych numerycznych, co zazwyczaj sprzyja uzyskaniu lepszej jakości predykcji ze względu na fakt, że modele najlepiej radzą sobie gdy rozkłady zmiennych są zbliżone do rozkładu normalnego." ] }, { "cell_type": "markdown", "metadata": { "ExecuteTime": { "end_time": "2021-10-12T11:56:28.907518Z", "start_time": "2021-10-12T11:56:28.875293Z" } }, "source": [ "Często spotykaną jest po prostu logarytmowanie zmiennych numerycznych, tutaj natomiast posłużymy się gotowym transformerem z biblioteki sklearn, a mianowicie PowerTransformer" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "ExecuteTime": { "end_time": "2021-10-13T07:17:07.512038Z", "start_time": "2021-10-13T07:17:07.498042Z" } }, "outputs": [], "source": [ "from sklearn.preprocessing import PowerTransformer" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "zanim dokonamy transformacji sprawdźmy jak wyglądają rozkłady zmiennych numerycznych, ograniczymy się tutaj do przebiegu, wieku i średniego przebiegu" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "ExecuteTime": { "end_time": "2021-10-13T07:17:09.592613Z", "start_time": "2021-10-13T07:17:08.864544Z" } }, "outputs": [ { "data": { "text/plain": [ "array([[,\n", " ],\n", " [,\n", " ]], dtype=object)" ] }, "execution_count": 42, "metadata": {}, "output_type": "execute_result" }, { "data": { "image/png": "iVBORw0KGgoAAAANSUhEUgAAA2cAAAIYCAYAAADpSJTFAAAAOXRFWHRTb2Z0d2FyZQBNYXRwbG90bGliIHZlcnNpb24zLjQuMSwgaHR0cHM6Ly9tYXRwbG90bGliLm9yZy/Z1A+gAAAACXBIWXMAAAsTAAALEwEAmpwYAAA+cUlEQVR4nO3de7xddX3n/9dHLnKzBISeX0yowULpUDNFPUV82MsBvKBYYVrK4I9qsNjMtLWDYzoa6u9Xxz5sJ3ZKFauPairWOKIBUQoDtYrIrqU/RYmoXCIlYJCkgXjhdqijDX5+f+zvwW08J2fvnb3P/q6zX8/HYz3Ouq/3d+99zsona63vjsxEkiRJkjRaTxp1AEmSJEmSxZkkSZIkVcHiTJIkSZIqYHEmSZIkSRWwOJMkSZKkClicSZIkSVIFLM6kDhHxUxExHRH7lOlWRLxm1LkkSZK0+O076gBSTTLzG8Aho84hSZKk8eOVM0mSJEmqgMWZxkJEbI2I/xYRX42IxyLikoiYiIhPRMSjEfHpiDgsIlZEREbErFeVI+K3ImJzRDwYEZ+MiKd3LLs4Iu6LiEciYlNE/FLHsgMjYkPZbnNEvCEitnUsf1pEfCwivhkRX4+I/zLcV0SSpNGJiLURcXc5B98REf+hzN8nIi6KiG+V8+FrO8/LEXFoOYfviIjtEfHWmUcRpMXA4kzj5NeBFwI/A/wq8AngD4Ejaf8u7LEgiogzyvq/Vrb5R+AjHat8ETgBOBz4MPDRiDigLHszsAJ4Rsnwmx37fRLwv4GvAMuAU4HXRcSL+22oJEmVuxv4JeBQ4C3AhyJiKfDbwEton0+fDZy523YfAHYBxwDPAl4E+Gy4Fg2LM42Tv8zMBzJzO+3C6qbMvCUz/w9wJe0/8nvyn4H/kZmbM3MX8KfACTNXzzLzQ5n57czclZkXAU8Gjivbng38aWY+mJnbgHd27PcXgCMz848z8/uZeQ/w18A5A2q3JElVycyPZua/ZOYPMvMy4C7gRNrny4szc1tmPgism9kmIiaAlwKvy8zHMnMn8HY8X2oRsUMQjZMHOsa/O8v0fB2BPB24OCIu6pgXtK923RsRfwCcDzwNSOAngCPKek8D7uvYrnP86cDTIuKhjnn70C4gJUladCLiVcDrad9VAu1z8BHMf77cD9gRETPznrTbOlKjWZxJ3bsP+JPMvHT3BeX5sjfQviXx9sz8QUQ8SLt4A9gBLAfuKNNH7bbfr2fmsUNLLklSJcodJ39N+5z5ucx8PCK+TPucOXO+nLH7+fJ7wBHlDhZp0fG2Rql77wEujIifgyceSv6NsuwptO+B/yawb0T8Ee0rZzMuL9seFhHLgNd2LPsC8GhEvLF0HLJPRDwzIn5h6C2SJGnhHUz7DpNvAkTEq4FnlmWXAxdExLKIWAK8cWajzNwBfAq4KCJ+IiKeFBE/HRG/sqDppSGyOJO6lJlXAm8DNkbEI8BttB9aBvgk8PfAPwP3Av+HH73N4o+BbcDXgU8DV9D+3z8y83HgZbQffv468C3gfbQfkpYkaVHJzDuAi4DP0X7EYCXwT2XxX9MuwL4K3AL8He3//Hy8LH8VsD/tO1EepH0+XbpQ2aVhi8wcdQZp7ETE7wDnZKb/2ydJ0hwi4iXAezLz6fOuLC0CXjmTFkBELI2I55dbMI4D1tDuIVKSJBXl9v6XRsS+5TGAN+P5UmPEK2fSAigPP18LHA08BGwELszM748ylyRJNYmIg4B/AH6Wdk/K1wIXZOYjIw0mLRCLM0mSJEmqgLc1SpIkSVIFLM4kSZIkqQIL+iXURxxxRK5YsaKvbR977DEOPvjgwQZaIE3ODs3O3+Ts0Oz8Tc4Ozc4/iOybNm36VmYeOaBIWgB7Osc2+fMM5h8184+W+UdnWNn3dI5d0OJsxYoV3HzzzX1t22q1mJqaGmygBdLk7NDs/E3ODs3O3+Ts0Oz8g8geEfcOJo0Wyp7OsU3+PIP5R838o2X+0RlW9j2dY72tUZIkSZIqYHEmSZIkSRXoqjiLiP8aEbdHxG0R8ZGIOCAijo6ImyJiS0RcFhH7DzusJEmSJC1W8xZn5dvZ/wswmZnPBPYBzgHeBrw9M48BHgTOH2ZQSZIkSVrMur2tcV/gwIjYFzgI2AGcAlxRlm8Azhx4OkmSJEkaE/P21piZ2yPiz4FvAN8FPgVsAh7KzF1ltW3Astm2j4jVwGqAiYkJWq1WX0Gnp6f73nbUmpwdmp2/ydmh2fmbnB2anb/J2SVJGmfzFmcRcRhwBnA08BDwUeC0bg+QmeuB9QCTk5PZb3eUdsM5Ok3O3+Ts0Oz8Tc4Ozc7f5OySJI2zbm5rfAHw9cz8Zmb+G/Bx4PnAknKbI8ByYPuQMkqSJEnSotfNl1B/AzgpIg6ifVvjqcDNwA3AWcBGYBVw1bBCzlix9tqu19267vQhJpEkSZKazX9b12feK2eZeRPtjj++BNxatlkPvBF4fURsAZ4KXDLEnJIkSZK0qHVz5YzMfDPw5t1m3wOcOPBEkiRJkjSGuu1KX5IkSZI0RBZnkiRJklSBrm5rbCIfcJQkSZLUJF45kyRJkqQKWJxJkiRJUgUsziRJkiSpAhZnkiRJklQBizNJkiRJqoDFmSRJkiRVwOJMkiRJkipgcSZJkiRJFbA4kyRJkqQKWJxJkjRiEbFPRNwSEdeU6aMj4qaI2BIRl0XE/qPOKEkaPoszSZJG7wJgc8f024C3Z+YxwIPA+SNJJUlaUBZnkiSNUEQsB04H3lemAzgFuKKssgE4cyThJEkLat9RB5Akacy9A3gD8JQy/VTgoczcVaa3Actm2zAiVgOrASYmJmi1WrMeYHp6es5lTWD+0TL/aA0z/5qVu+Zfqeg3Q5Nf/1Fkn7c4i4jjgMs6Zj0D+CPgg2X+CmArcHZmPjj4iJIkLU4R8TJgZ2ZuioipXrfPzPXAeoDJycmcmpp9F61Wi7mWNYH5R8v8ozXM/Oetvbbrdbee21+GJr/+o8g+722NmXlnZp6QmScAzwH+FbgSWAtcn5nHAteXaUmS1L3nAy+PiK3ARtq3M14MLImImf9AXQ5sH008SdJC6vWZs1OBuzPzXuAM2vfBg/fDS5LUs8y8MDOXZ+YK4BzgM5l5LnADcFZZbRVw1YgiSpIWUK/F2TnAR8r4RGbuKOP3AxMDSyVJ0nh7I/D6iNhC+xm0S0acR5K0ALruEKR8x8rLgQt3X5aZGRE5x3ZdPaw8n+npadasfLyvbecz7Af9mvwgJDQ7f5OzQ7PzNzk7NDt/k7OPs8xsAa0yfg9w4ijzSNK4WDHHs3drVu76sefytq47fahZeumt8SXAlzLzgTL9QEQszcwdEbEU2DnbRt0+rDyfVqvFRTc+1te28+n3AcduNflBSGh2/iZnh2bnb3J2aHb+JmeXJGmc9XJb4yv44S2NAFfTvg8evB9ekiRJkvZKV8VZRBwMvBD4eMfsdcALI+Iu4AVlWpIkSZLUh65ua8zMx2g/kNw579u0e2+UJEnSiMz1vMxshv28jKS902tvjZIkSZKkIbA4kyRJkqQKWJxJkiRJUgUsziRJkiSpAr18z5kkSdKiZwcbWgjdfs7WrNzF1HCjqCJeOZMkSZKkClicSZIkSVIFLM4kSZIkqQIWZ5IkSZJUATsEkSRJkjQSdsDzo7xyJkmSJEkVsDiTJEmSpApYnEmSJElSBSzOJEmSJKkCFmeSJEmSVAGLM0mSJEmqgMWZJEmSJFWgq+IsIpZExBUR8bWI2BwRz4uIwyPiuoi4q/w8bNhhJUmSJGmx6vZLqC8G/j4zz4qI/YGDgD8Ers/MdRGxFlgLvHFIOSVJ0hD5RbBqurk+w2tW7uK83Zb5GVat5r1yFhGHAr8MXAKQmd/PzIeAM4ANZbUNwJnDiShJkiRJi183V86OBr4J/E1E/DywCbgAmMjMHWWd+4GJ2TaOiNXAaoCJiQlarVZfQaenp1mz8vG+tp1Pv5m6NT09PfRjDFOT8zc5OzQ7f5OzQ7PzNzm7JEnjrJvibF/g2cDvZ+ZNEXEx7VsYn5CZGRE528aZuR5YDzA5OZlTU1N9BW21Wlx042N9bTufredODWW/M1qtFv22uwZNzt/k7NDs/E3ODs3O3+TskiSNs246BNkGbMvMm8r0FbSLtQciYilA+blzOBElSZIkafGb98pZZt4fEfdFxHGZeSdwKnBHGVYB68rPq4aadIh8CFqSJEnSqHXbW+PvA5eWnhrvAV5N+6rb5RFxPnAvcPZwIkqSJEnS4tdVcZaZXwYmZ1l06kDTSJIkSdKY6upLqCVJkiRJw2VxJkmSJEkVsDiTJEmSpApYnEmSJElSBSzOJEmSJKkCFmeSJEmSVAGLM0mSJEmqgMWZJEkjEhEHRMQXIuIrEXF7RLylzD86Im6KiC0RcVlE7D/qrJKk4bM4kyRpdL4HnJKZPw+cAJwWEScBbwPenpnHAA8C548uoiRpoVicSZI0Itk2XSb3K0MCpwBXlPkbgDMXPp0kaaHtO+oAkiSNs4jYB9gEHAO8G7gbeCgzd5VVtgHL5th2NbAaYGJiglarNesxpqen51w2Y83KXXtc3mm+fQ1aN/kHadCvxbDzD/u9W+jXv19zvQ4TB/74shra0+37NnHg8PIuxO/9fJ+fGv721PTZsTiTJGmEMvNx4ISIWAJcCfxsD9uuB9YDTE5O5tTU1KzrtVot5lo247y113Z7WLaeu+d9DVo3+Qdp0K/FsPMP+71b6Ne/X3O9DmtW7uKiW3/0n7wL/RmeTbfv25qVuzh7SK//Qvzez/f5qeFvT02fHW9rlCSpApn5EHAD8DxgSUTM/ItgObB9VLkkSQvH4kySpBGJiCPLFTMi4kDghcBm2kXaWWW1VcBVIwkoSVpQ3tYoSdLoLAU2lOfOngRcnpnXRMQdwMaIeCtwC3DJKENKkhaGxZkkSSOSmV8FnjXL/HuAExc+kSRplLytUZIkSZIq0NWVs4jYCjwKPA7syszJiDgcuAxYAWwFzs7MB4cTU5IkSZIWt16unJ2cmSdk5mSZXgtcn5nHAteXaUmSJElSH/bmtsYzgA1lfANw5l6nkSRJkqQx1W2HIAl8KiISeG/50suJzNxRlt8PTMy2YUSsBlYDTExM7NW3i69Z+Xhf2w5SP/nn+2b02jU5f5OzQ7PzNzk7NDt/k7NLkjTOui3OfjEzt0fETwLXRcTXOhdmZpbC7ceUQm49wOTkZPb7DfOtVouLbnysr20HqZ9vBZ/vm9Fr1+T8Tc4Ozc7f5OzQ7PxNzi5J0jjr6rbGzNxefu4ErqTdve8DEbEUoPzcOayQkiRJkrTYzXvlLCIOBp6UmY+W8RcBfwxcDawC1pWfVw0zaBOtWHstAGtW7uK8Mr4nW9edPuxIkiRJkirVzW2NE8CVETGz/ocz8+8j4ovA5RFxPnAvcPbwYkqSJEnS4jZvcZaZ9wA/P8v8bwOnDiOUJEmSJI2bvelKX5IkSZI0IBZnkiRJklQBizNJkiRJqkC333MmSZI0dCtm6d14rl6Pe+nleLb9SlJtLM565B93SZIkScPgbY2SJEmSVAGLM0mSJEmqgLc1SpIkLYBeHo3o5Xm6YZnJO9czf51qyCstBl45kyRJkqQKWJxJkiRJUgUsziRJkiSpAhZnkiRJklQBOwSRJEnSWGla5ywaH145kyRJkqQKWJxJkiRJUgUsziRJkiSpAl0/cxYR+wA3A9sz82URcTSwEXgqsAl4ZWZ+fzgxJUmS6tPNs0vdfIlz0/kM1+Lne7wwerlydgGwuWP6bcDbM/MY4EHg/EEGkyRJkqRx0lVxFhHLgdOB95XpAE4BriirbADOHEI+SZIkSRoL3V45ewfwBuAHZfqpwEOZuatMbwOWDTaaJEmSJI2PeZ85i4iXATszc1NETPV6gIhYDawGmJiYoNVq9boLAKanp1mz8vG+th21iQPb95vPp9/XZtimp6erzTafJmeHZudvcnZodv4mZ5ckaZx10yHI84GXR8RLgQOAnwAuBpZExL7l6tlyYPtsG2fmemA9wOTkZE5NTfUVtNVqcdGNj/W17aitWbmLi26d/6Xeeu7U8MP0odVq0e/7NmpNzg7Nzt/k7NDs/E3OrmbopWMAsHMAaSH1+vvZJOPQKcm8FUNmXghcCFCunP1BZp4bER8FzqLdY+Mq4KrhxdTuxuHDKUmSJI2TvfmeszcCr4+ILbSfQbtkMJEkSZIkafx0/T1nAJnZAlpl/B7gxMFHkiRJkqTx01NxJnXy1kpJkiRpcPbmtkZJkiRJ0oBYnEmSNCIRcVRE3BARd0TE7RFxQZl/eERcFxF3lZ+HjTqrJGn4LM4kSRqdXcCazDweOAn4vYg4HlgLXJ+ZxwLXl2lJ0iJncSZJ0ohk5o7M/FIZfxTYDCwDzgA2lNU2AGeOJKAkaUHZIYgkSRWIiBXAs4CbgInM3FEW3Q9MzLHNamA1wMTEBK1Wa9Z9T09Pz7lsxpqVu/pI3Z35jj1fjokDZ5+/t/tdKHPl35Nhta2f/faTf1AZbt3+cNfrrlk5+/y9zf+Xl3b/Vb4rlx3a9brdZpo4sDmf9Rmdeef7+zOsvIN4zWb77PSy335YnEmSNGIRcQjwMeB1mflIRDyxLDMzInK27TJzPbAeYHJyMqempmbdf6vVYq5lM87roQfeXm09d8/Hni/HmpW7uOjWH/8ny97ud6HMlX9PhtW2fvbbT/5BZ9gbg86/J8No25qVuzh7nt/ffvY7TJ2vw3x/f4aVdxDvxWyfnV722w9va5QkaYQiYj/ahdmlmfnxMvuBiFhali8Fdo4qnyRp4XjlbAz08n1ks1mzclcV/wsjSYtNtC+RXQJszsy/6Fh0NbAKWFd+dn9flSSpsSzOJEkanecDrwRujYgvl3l/SLsouzwizgfuBc4eTTxJ0kKyOJMkaUQy80Yg5lh86kJmUV329q6Xhd6vpMHwmTNJkiRJqoDFmSRJkiRVwOJMkiRJkirgM2eSJKmRfH5K46Jpn/XOvPb63RuLM1Wnlz9AW9edPsQkkiRJ0sLxtkZJkiRJqsC8xVlEHBARX4iIr0TE7RHxljL/6Ii4KSK2RMRlEbH/8ONKkiRJ0uLUzW2N3wNOyczpiNgPuDEiPgG8Hnh7Zm6MiPcA5wN/NcSsi17T7ieWJEmSNDjzXjnLtukyuV8ZEjgFuKLM3wCcOYyAkiRJkjQOuuoQJCL2ATYBxwDvBu4GHsrMXWWVbcCyObZdDawGmJiYoNVq9RV0enqaNSsf72vbUZs4sN1TTVMNIn8v73svx5pvv9PT031/5mrQ5PxNzg7Nzt/k7JIkjbOuirPMfBw4ISKWAFcCP9vtATJzPbAeYHJyMqempnpPSfsf4Rfd+Fhf247ampW7uOjW5naMOYj8W8+d6nrdXrpbnW+/rVaLfj9zNWhy/iZnh2bnb3J2SZLGWU+9NWbmQ8ANwPOAJREx8y/25cD2wUaTJEmSpPHRTW+NR5YrZkTEgcALgc20i7SzymqrgKuGlFGSJEmSFr1u7lVbCmwoz509Cbg8M6+JiDuAjRHxVuAW4JIh5pQkSZKkRW3e4iwzvwo8a5b59wAnDiOUJEmSJI2bnp45kyRJkiQNh8WZJEmSJFWguf27q1FW9NA9fg0Ztq47fYhJJGm81HAOkBaCn3XtLa+cSZIkSVIFLM4kSZIkqQIWZ5IkSZJUAYszSZIkSaqAHYJIkiRpwdhphhZCUz9nXjmTJEmSpApYnEmSJElSBSzOJEmSJKkCFmeSJEmSVAGLM0mSJEmqgMWZJEmSJFXA4kySJEmSKuD3nKnR5vsOizUrd3FeQ7/nQpIkSePFK2eSJEmSVIF5i7OIOCoiboiIOyLi9oi4oMw/PCKui4i7ys/Dhh9XkiRJkhanbq6c7QLWZObxwEnA70XE8cBa4PrMPBa4vkxLkiRJkvowb3GWmTsy80tl/FFgM7AMOAPYUFbbAJw5pIySJEmStOj11CFIRKwAngXcBExk5o6y6H5gYo5tVgOrASYmJmi1Wn0FnZ6eZs3Kx/vadtQmDmx3TNFUTc7fb/Z+P6fzuXX7w12vu3LZoUxPTw8ty7A1OTs0O3+Ts0uSNM66Ls4i4hDgY8DrMvORiHhiWWZmRORs22XmemA9wOTkZE5NTfUVtNVqcdGNj/W17aitWbmLi25tbseYTc7fb/at504NPgz01HPk1nOnaLVa9Ps7M2pNzg7Nzt/k7JIkjbOuemuMiP1oF2aXZubHy+wHImJpWb4U2DmciJIkLU4R8f6I2BkRt3XMs8MtSRpT815SiPYlskuAzZn5Fx2LrgZWAevKz6uGklAaUyvWXtv197RtXXf6AiSSNAQfAN4FfLBj3kyHW+siYm2ZfuMIskmSFlg3V86eD7wSOCUivlyGl9Iuyl4YEXcBLyjTkiSpS5n5WeA7u822wy1JGlPzXjnLzBuBmGPxqYONI0nS2Ouqwy3ovtOtbjqJqbnjpyZ3TAXmHzXzj1aT88+WfdgdbjWzlwdJksbAnjrcKsu76nSrm05ieumwaKE1uWMqMP+omX+0mpx/tuzD6jRuRlcdgkiSpAVjh1uSNKaaWcZKQ7aily7v7YxD0mDZ4ZYkjSmvnEmSNCIR8RHgc8BxEbEtIs7HDrckaWx55UySpBHJzFfMscgOtyRpDHnlTJIkSZIqYHEmSZIkSRXwtkZpEbADE0mSpObzypkkSZIkVcArZ9Je6uWqlSRJkjQXr5xJkiRJUgUsziRJkiSpAhZnkiRJklQBizNJkiRJqoDFmSRJkiRVwN4apTHjd6JJkiTVad4rZxHx/ojYGRG3dcw7PCKui4i7ys/DhhtTkiRJkha3bq6cfQB4F/DBjnlrgeszc11ErC3Tbxx8PEmLkVfvJEmSfty8V84y87PAd3abfQawoYxvAM4cbCxJkiRJGi/9dggykZk7yvj9wMSA8kiSJEnSWNrrDkEyMyMi51oeEauB1QATExO0Wq2+jjM9Pc2alY/3te2oTRwIa1buGnWMvjU5f5Ozw+jz/+WlV3W97splh/7I9PT09Jy/7720qd+/GXurM/+t2x/uervdX4dR2NNrL0mS6tVvcfZARCzNzB0RsRTYOdeKmbkeWA8wOTmZU1NTfR2w1Wpx0Y2P9bXtqK1ZuYuLbm1ux5hNzt/k7NCs/FvPnfqR6VarxVy/7+f18szZbvtdKJ35m5C3055ee0mSVK9+b2u8GlhVxlcB3f/3uiRJkiTpx3TTlf5HgM8Bx0XEtog4H1gHvDAi7gJeUKYlSZIkSX2a936pzHzFHItOHXAWSZIkSRpb/d7WKEmSJEkaIIszSZIkSapAM7qBk1S9Fbv1aLhm5a6eejmUJEkad145kyRJkqQKWJxJkiRJUgW8rVHSorH7rZV7snXd6UNMIkmS1DuvnEmSJElSBbxyJqlqvVwNG+R+7dBEkiQtNK+cSZIkSVIFLM4kSZIkqQIWZ5IkSZJUAYszSZIkSaqAxZkkSZIkVcDiTJIkSZIqYHEmSZIkSRXwe84kqQF6+b63D5x28BCTSJKkYfHKmSRJkiRVYK+Ks4g4LSLujIgtEbF2UKEkSRp3nmMlafz0fVtjROwDvBt4IbAN+GJEXJ2ZdwwqnCQ1TS+3H25dd/oQk6jJPMdK0njamytnJwJbMvOezPw+sBE4YzCxJEkaa55jJWkMRWb2t2HEWcBpmfmaMv1K4LmZ+drd1lsNrC6TxwF39pn1COBbfW47ak3ODs3O3+Ts0Oz8Tc4Ozc4/iOxPz8wjBxFGvRvCObbJn2cw/6iZf7TMPzrDyj7nOXbovTVm5npg/d7uJyJuzszJAURacE3ODs3O3+Ts0Oz8Tc4Ozc7f5OzqTbfn2KZ/Jsw/WuYfLfOPziiy781tjduBozqml5d5kiRp73iOlaQxtDfF2ReBYyPi6IjYHzgHuHowsSRJGmueYyVpDPV9W2Nm7oqI1wKfBPYB3p+Ztw8s2Y/b61sjR6jJ2aHZ+ZucHZqdv8nZodn5m5xdDOUc2/TPhPlHy/yjZf7RWfDsfXcIIkmSJEkanL36EmpJkiRJ0mBYnEmSJElSBaovziLitIi4MyK2RMTaBT72+yNiZ0Tc1jHv8Ii4LiLuKj8PK/MjIt5Zcn41Ip7dsc2qsv5dEbGqY/5zIuLWss07IyL2dIw+8h8VETdExB0RcXtEXNCUNkTEARHxhYj4Ssn+ljL/6Ii4qRzvsvKgPBHx5DK9pSxf0bGvC8v8OyPixR3zZ/1szXWMXkXEPhFxS0Rc08DsW8v7+uWIuLnMq/5z07H/JRFxRUR8LSI2R8TzmpA/Io4rr/nM8EhEvK4J2VWnuf5W1Cx6OPfWJno879Ymejz31iq6PP/WKHo4/9aol/NvbXo9Bw9NZlY70H4I+m7gGcD+wFeA4xfw+L8MPBu4rWPenwFry/ha4G1l/KXAJ4AATgJuKvMPB+4pPw8r44eVZV8o60bZ9iV7OkYf+ZcCzy7jTwH+GTi+CW0o+zukjO8H3FSOczlwTpn/HuB3yvjvAu8p4+cAl5Xx48vn5snA0eXztM+ePltzHaOP1//1wIeBa/a030qzbwWO2G1e9Z+bjqwbgNeU8f2BJU3KX7bfB7gfeHrTsjvUMezpb0XNAz2ce2sb6PG8W9tAj+feWge6PP/WONDD+bfGgR7OvzUP3ZyDh3bsUTd+nhfmecAnO6YvBC5c4AwrdjtB3AksLeNLgTvL+HuBV+y+HvAK4L0d899b5i0FvtYx/4n15jrGANpyFfDCprUBOAj4EvBc2t/Svu/unw/aPZo9r4zvW9aL3T8zM+vN9dkq28x6jB4zLweuB04BrtnTfmvLXrbdyo+fHBrxuQEOBb5O6fCoafk79vsi4J+amN2hjmGuvxWjztVl9hV0ce6tfWCe827NA12ce2sc6OH8W+NAD+ff2oZez781D92cg4c11H5b4zLgvo7pbWXeKE1k5o4yfj8wUcbnyrqn+dtmmb+nY/Qt2rfKPYv2/4I1og3ltoQvAzuB62j/D/BDmblrluM9kbEsfxh4ah9teuoejtGLdwBvAH5Qpve039qyAyTwqYjYFBGry7xGfG5oX2X8JvA35baW90XEwQ3KP+Mc4CPz7LfW7KpDjefQfjXu89nlebc6PZ57a/QOuj//1qiX829tej3/1qybc/BQ1F6cVS3bJXTWfoyIOAT4GPC6zHxk0PufT7/HyMzHM/ME2v8LdiLwswOONhQR8TJgZ2ZuGnWWvfCLmfls4CXA70XEL3curPlzQ/vq47OBv8rMZwGP0b4NYRD77treHKM8D/Fy4KOD3G+3FuIYUr+a8Pkc9Xl3bzT13AuefytQxfl3b436HFx7cbYdOKpjenmZN0oPRMRSgPJzZ5k/V9Y9zV8+y/w9HaNnEbEf7RPEpZn58Sa2ITMfAm6gfSvCkoiY+fL0zuM9kbEsPxT4dh9t+vYejtGt5wMvj4itwEbat1Zc3JDsAGTm9vJzJ3Al7RN0Uz4324BtmXlTmb6C9smiKfmhfVL+UmY+MM9+a8yuetR4Du1XYz6fPZ53q9Xlubc2vZ5/q9Pj+bc2vZ5/a9XtOXgoai/OvggcW3rZ2Z/2JcarR5zpamBVGV9F+37ymfmviraTgIfLJdBPAi+KiMNK7y4von2v8w7gkYg4KSICeNVu+5rtGD0p+70E2JyZf9GkNkTEkRGxpIwfSPue/c20TxRnzZF95nhnAZ8p/7txNXBOtHtEPBo4lnaHCLN+tso2cx2jK5l5YWYuz8wVZb+fycxzm5AdICIOjoinzIzTfr9vowGfG4DMvB+4LyKOK7NOBe5oSv7iFfzwdoo97bfG7KpHjefQfjXi89nHebcqfZx7q9LH+bcqfZx/q9LH+bdW3Z6Dh2MYD7INcqDdG9k/077n+U0LfOyPADuAf6P9vwHn0753+XrgLuDTwOFl3QDeXXLeCkx27Oe3gC1leHXH/Enav3R3A++iPEA51zH6yP+LtC+9fhX4chle2oQ2AP8euKVkvw34ozL/GbQLlC20Lzc/ucw/oExvKcuf0bGvN5V8d1J6ptvTZ2uuY/T5Hkzxw96iGpG97OMrZbh9Zv9N+Nx07P8E4Oby+flb2j0WNiI/cDDtq6CHdsxrRHaH+oa5/lbUPNDDube2gR7Pu7UN9HjurXmgi/NvbQM9nn9rHOjh/Fvj0Ms5eFjDzElZkiRJkjRCtd/WKEmSJEljweJMkiRJkipgcSZJkiRJFbA4kyRJkqQKWJxJkiRJUgUsziRJkiSpAhZnkiRJklQBizNJkiRJqoDFmSRJkiRVwOJMkiRJkipgcSZJkiRJFbA4kyRJkqQKWJxJkiRJUgUsziRJkiSpAhZnkiRJklQBizNJkiRJqoDFmSRJkiRVwOJMkiRJkipgcSZJkiRJFbA4kyRJkqQKWJxJkiRJUgUsziRJkiSpAhZnkiRJklQBizNJkiRJqoDFmSRJkiRVwOJMkiRJkipgcSZJkiRJFbA4kyRJkqQKWJxJkiRJUgUsziRJkiSpAhZnkiRJklQBizNJkiRJqoDFmdSDiPhARLx1AY93bkR8qmM6I+KYhTq+JEmSFo7FmVSxzLw0M1806hySJEkaPoszqUsRsc+oM0iSJGnxsjjTUETE2oi4OyIejYg7IuI/RMSTI+KhiHhmx3pHRsR3I+Iny/QbImJHRPxLRLxmvtv4IuIXIuKBzsIpIn4tIr5Sxp/UkeXbEXF5RBzese5HI+L+iHg4Ij4bET/XsewDEfFXEfF3EfEYcPJux74tIn61Y3q/iPhWRDxrD3lXlDa9OiLui4gHI+I/l3Z8tbw+7+pY/7yIuHGOfT05Iv48Ir5RXoP3RMSBZdlhEXFNRHyzHOOaiFjese3Rpb2PRsSnI+LdEfGhjuUnRcT/V/J8JSKm5mqTJEmSBsPiTMNyN/BLwKHAW4APAYcDHwde0bHe2cA/ZObOiDgNeD3wAuAYYGq+g2TmF4FvA523/r0S+GAZ/33gTOBXgKcBDwLv7lj3E8CxwE8CXwIu3e0Q/zfwJ8BTgN2LpA8Cv9kx/VJgR2beMl9u4LnluP8ReAfwJtrt/jng7Ij4lS72sQ74GeAE2q/XMuCPyrInAX8DPB34KeC7wLs6tv0w8AXgqcB/p/2aARARy4BrgbfSfs/+APhYRBzZRSZJkiT1KTJz1Bk0BiLiy8CbgceA92bmT5f5/1SmPxgR7wceyMwLy7JjgLuAYzNzyx72/Ubg32fmueWq2DbgpzNzR0RsBl6bmdeXdZcC3wAOzMxdu+1nCe3ibUlmPhwRHwCelJmv6ljnA8C2zPx/IuJpwJ3Assx8JCKuAL6QmX+2h6wrgK8DyzNze5n3beB3M/OyMv0x4B8z8x0RcR7wmsz8xbIsaRd1dwPTpd13l2XPAz6cmUfPctwTgBsy87CI+CngHuAnMvNfy/IPAWTmb5bX85mZ2VmwfbLse8NcbZMkSdLe2XfUAbQ4RcSraF8FW1FmHQIcAVwDHBQRzwUeoH3V58qyztOAmzt2c1+Xh/sQsDkiDqZ9Je4fM3NHWfZ04MqI+EHH+o8DExFxP+2rYr8BHAnMrHME8PB8GTLzX0px+esRcSXwEuCCLjM/0DH+3VmmD5ln+yOBg4BNETEzL4B9ACLiIODtwGnAYWX5U8rtn08DvjNTmBX3AUeV8acDv9F5yyawH3DD/M2SJElSvyzONHAR8XTgr4FTgc9l5uPlylmU8ctp39r4AHBNZj5aNt0BLO/Y1VF0ITO3R8TngF+jfXveX3Usvg/4rcz8p1lyvhI4g/bthFtp34L5IO0i54ndz3P4DcBraP8ufW7matgC+BbtIu7n5jjmGuA44LmZeX+5cnYL7bbtAA6PiIM6CrTO1/o+4H9l5m8PLb0kSZJ+jM+caRgOpl3UfBMgIl4NPLNj+YdpP2t1bhmfcTnw6oj4d+XKz//bwzE/CLwBWEn7ubYZ7wH+pBSMMx2QnFGWPQX4Hu1n1g4C/rSH4834W+DZtK+YfXDPqw5OZv6AdgH89o7OVJZFxIvLKk+hXbw9VG71fHPHtvfSvkL53yNi/3I7ZOdVsg8BvxoRL46IfSLigIiY6uxQRJIkSYNncaaBy8w7gIuAz9G+OrYS+KeO5TfRfvbsabQ75JiZ/wngnbRvn9sCfL4s+l4Xh72ScgvjbrfrXQxcDXwqIh4t+3xuWfZB4F5gO3BHx/G6lpnfBT4GHM2PFoUL4Y2U1ykiHgE+TftqGbQ7GTmQ9hW2zwN/v9u25wLPo12YvhW4jPI6Z+Z9tK8o/iHtAvs+4L/h3wtJkqShskMQVSsi/h1wG/Dk3TvvmGP9u4H/lJmfHnq4Hz3uHwE/k5m/Oe/KlYqIy4CvZeab511ZkiRJQ+H/hKsq8cPvQzsMeBvwv7sszH6d9q2Unxl2xt2OezhwPrB+IY+7t8r3qv10tL8H7jTaV8r+dsSxJEmSxprFmWrzn4CdtLuKfxz4HYCIuD0ipmcZzo2IFu1OQH6vPIu1ICLit2nf8veJzPxsx/xz58h6+0Jl68L/BbRod8f/TuB3uvx+NkmSJA1JV7c1RsRW4FHa/1jelZmT5YrBZbS7St8KnJ2ZDw4tqSRJkiQtYr1cOTs5M0/IzMkyvRa4PjOPBa4v05IkSZKkPvRy5WwyM7/VMe9OYCozd0TEUqCVmcfNtQ+AI444IlesWNFTwMcee4yDDz64p22awrY1z2JtF9i2phpW2zZt2vStzDxy4DuWJElz6vZLqJN2V+QJvDcz1wMTmbmjLL8fmJhvJytWrODmm2/uKWCr1WJqaqqnbZrCtjXPYm0X2LamGlbbIuLege9UkiTtUbdXzpZl5vbyZbfXAb8PXJ2ZSzrWeTAzD5tl29XAaoCJiYnnbNy4saeA09PTHHLIIT1t0xS2rXkWa7vAtjXVsNp28sknb+q4jV2SJC2Arq6cZeb28nNnRFwJnAg8EBFLO25r3DnHtusp3YxPTk5mr//D6/94N9NibdtibRfYtqZazG2TJGnczNshSEQcHBFPmRkHXkT7i4GvBlaV1VYBVw0rpCRJkiQtdt1cOZsAroyImfU/nJl/HxFfBC6PiPOBe4GzhxdTkiRJkha3eYuzzLwH+PlZ5n8bOHUYoSRJkiRp3PTyPWeSJEmSpCGxOJMkSZKkClicSZIkSVIFuv0SammsrFh77azz16zcxXm7Ldu67vSFiCRJkqRFzitnkiRJklQBizNJkiRJqoDFmSRJkiRVwOJMkiRJkipgcSZJkiRJFbA4kyRJkqQKWJxJkiRJUgUsziRJkiSpAhZnkiRJklQBizNJkiRJqoDFmSRJkiRVwOJMkiRJkipgcSZJkiRJFbA4kyRJkqQKWJxJkiRJUgUsziRJkiSpAhZnkiRJklQBizNJkiRJqoDFmSRJkiRVwOJMkiRJkipgcSZJkiRJFbA4kyRJkqQKWJxJkiRJUgUsziRJkiSpAhZnkiRJklQBizNJkiRJqoDFmSRJkiRVwOJMkiRJkipgcSZJkiRJFbA4kyRJkqQKdF2cRcQ+EXFLRFxTpo+OiJsiYktEXBYR+w8vpiRJkiQtbr1cObsA2Nwx/Tbg7Zl5DPAgcP4gg0mSJEnSOOmqOIuI5cDpwPvKdACnAFeUVTYAZw4hnyRJkiSNhcjM+VeKuAL4H8BTgD8AzgM+X66aERFHAZ/IzGfOsu1qYDXAxMTEczZu3NhTwOnpaQ455JCetmkK21avW7c/POv8iQPhge/+6LyVyw5dgETD1/T3bE9sW+9OPvnkTZk5OfAdS5KkOe073woR8TJgZ2ZuioipXg+QmeuB9QCTk5M5NdXbLlqtFr1u0xS2rV7nrb121vlrVu7iolt/9Ndm67lTC5Bo+Jr+nu2JbZMkSU0wb3EGPB94eUS8FDgA+AngYmBJROybmbuA5cD24cWUJEmSpMVt3mfOMvPCzFyemSuAc4DPZOa5wA3AWWW1VcBVQ0spSZIkSYvc3nzP2RuB10fEFuCpwCWDiSRJkiRJ46eb2xqfkJktoFXG7wFOHHwkSZIkSRo/e3PlTJIkSZI0IBZnkiRJklQBizNJkiRJqoDFmSRJkiRVwOJMkiRJkipgcSZJkiRJFbA4kyRJkqQK9PQ9Z1K/Vqy9tut1t647fYhJJEmSpDp55UySJEmSKmBxJkmSJEkVsDiTJEmSpAr4zJn6tqfnyNas3MV5PTxnNi56efauF8N6Ts9nBSVJkhaOV84kSZIkqQIWZ5IkSZJUAYszSZIkSaqAxZkkSZIkVcDiTJIkSZIqYHEmSZIkSRWwOJMkSZKkClicSZIkSVIFLM4kSZIkqQIWZ5IkSZJUAYszSZIkSaqAxZkkSZIkVWDfUQdQXVasvXbUEdRQvXx2tq47fYhJJEmSmskrZ5IkSZJUAYszSZIkSaqAxZkkSZIkVcBnzjQ2hvU8XdOe05sr75qVuzivYW2RJElaTLxyJkmSJEkVsDiTJEmSpApYnEmSJElSBXzmTNKC8zvRJEmSfty8V84i4oCI+EJEfCUibo+It5T5R0fETRGxJSIui4j9hx9XkiRJkhanbm5r/B5wSmb+PHACcFpEnAS8DXh7Zh4DPAicP7SUkiRJkrTIzVucZdt0mdyvDAmcAlxR5m8AzhxGQEmSJEkaB5GZ868UsQ+wCTgGeDfwP4HPl6tmRMRRwCcy85mzbLsaWA0wMTHxnI0bN/YUcHp6mkMOOaSnbZqixrbduv3hgexn4kB44Lv9bbty2aEDybC7QbRtb9o1TL28ZnO9DouhbXOp8XdtUIbVtpNPPnlTZk4OfMeSJGlOXXUIkpmPAydExBLgSuBnuz1AZq4H1gNMTk7m1NRUTwFbrRa9btMUNbZtUF9CvGblLi66tb/+ZraeOzWQDLsbRNv2pl3D1MtrNtfrsBjaNpcaf9cGZTG3TZKkcdNTV/qZ+RBwA/A8YElEzPxLbjmwfbDRJEmSJGl8dNNb45HlihkRcSDwQmAz7SLtrLLaKuCqIWWUJEmSpEWvm3uYlgIbynNnTwIuz8xrIuIOYGNEvBW4BbhkiDk1RvwOLHXy8yBJksbFvMVZZn4VeNYs8+8BThxGKEmSJEkaNz09cyZJkiRJGg6LM0mSJEmqgMWZJEmSJFWgvi81GmN2fCBJkiSNL6+cSZIkSVIFLM4kSZIkqQIWZ5IkSZJUAZ85ayifT2vr5XWQJEmSauaVM0mSJEmqgMWZJEmSJFXA4kySJEmSKmBxJkmSJEkVsDiTJEmSpApYnEmSJElSBSzOJEmSJKkCfs9Zj/x+MdXI73uTJElqPq+cSZIkSVIFLM4kSZIkqQIWZ5IkSZJUAYszSZIkSaqAHYKMATuLkCRJkurnlTNJkiRJqoDFmSRJkiRVwOJMkiRJkirgM2f4TJYkSZKk0fPKmSRJkiRVwOJMkiRJkipgcSZJkiRJFVi0z5zV8BzZfBnWrNzFeRXklCRJkjR6XjmTJEmSpApYnEmSJElSBSzOJEmSJKkCi/aZM0njZ67nPGd7vnPrutMXIpIkSVLX5r1yFhFHRcQNEXFHRNweEReU+YdHxHURcVf5edjw40qSJEnS4tTNbY27gDWZeTxwEvB7EXE8sBa4PjOPBa4v05IkSZKkPsxbnGXmjsz8Uhl/FNgMLAPOADaU1TYAZw4poyRJkiQtepGZ3a8csQL4LPBM4BuZuaTMD+DBmendtlkNrAaYmJh4zsaNG3sKOD09zSGHHNLTNgC3bn+4520W2sSB8MB3R51iOBZr2xZru2D82rZy2aGjCTNg/f6NnM/JJ5+8KTMnB75jSZI0p66Ls4g4BPgH4E8y8+MR8VBnMRYRD2bmHp87m5yczJtvvrmngK1Wi6mpqZ62gTq+hHo+a1bu4qJbF2efLIu1bYu1XTB+bVssHYL0+zdyPhFhcSZJ0gLrqiv9iNgP+BhwaWZ+vMx+ICKWluVLgZ3DiShJkiRJi183vTUGcAmwOTP/omPR1cCqMr4KuGrw8SRJkiRpPHRzD9PzgVcCt0bEl8u8PwTWAZdHxPnAvcDZQ0koSZIkSWNg3uIsM28EYo7Fpw42zp414TkySZIkSepHV8+cSZIkSZKGy+JMkiRJkipgcSZJkiRJFbA4kyRJkqQKWJxJkiRJUgUsziRJkiSpAhZnkiRJklQBizNJkiRJqoDFmSRJkiRVwOJMkiRJkipgcSZJkiRJFbA4kyRJkqQKWJxJkiRJUgUsziRJkiSpAhZnkiRJklQBizNJkiRJqoDFmSRJkiRVwOJMkiRJkipgcSZJkiRJFbA4kyRJkqQKWJxJkiRJUgUsziRJkiSpAhZnkiRJklQBizNJkiRJqoDFmSRJkiRVwOJMkiRJkipgcSZJkiRJFbA4kyRJkqQKWJxJkiRJUgUsziRJkiSpAhZnkiRJklQBizNJkiRJqoDFmSRJkiRVYN7iLCLeHxE7I+K2jnmHR8R1EXFX+XnYcGNKkiRJ0uLWzZWzDwCn7TZvLXB9Zh4LXF+mJUmSJEl9mrc4y8zPAt/ZbfYZwIYyvgE4c7CxJEmSJGm89PvM2URm7ijj9wMTA8ojSZIkSWMpMnP+lSJWANdk5jPL9EOZuaRj+YOZOetzZxGxGlgNMDEx8ZyNGzf2FHB6eppDDjkEgFu3P9zTtrWbOBAe+O6oUwzHYm3bYm0XjF/bVi47dDRhBqzzb+QgnXzyyZsyc3LgO5YkSXPat8/tHoiIpZm5IyKWAjvnWjEz1wPrASYnJ3NqaqqnA7VaLWa2OW/ttX3GrdOalbu46NZ+34K6Lda2LdZ2wfi1beu5U6MJM2CdfyMlSVKz9Xtb49XAqjK+CrhqMHEkSZIkaTx105X+R4DPAcdFxLaIOB9YB7wwIu4CXlCmJUmSJEl9mvcepsx8xRyLTh1wFkmSJEkaW/3e1ihJkiRJGiCLM0mSJEmqgMWZJEmSJFXA4kySJEmSKmBxJkmSJEkVsDiTJEmSpApYnEmSJElSBSzOJEmSJKkCFmeSJEmSVAGLM0mSJEmqgMWZJEmSJFXA4kySJEmSKmBxJkmSJEkVsDiTJEmSpApYnEmSJElSBSzOJEmSJKkCFmeSJEmSVAGLM0mSJEmqgMWZJEmSJFXA4kySJEmSKmBxJkmSJEkVsDiTJEmSpApYnEmSJElSBSzOJEmSJKkC+446gCSNwoq113a97tZ1pw8xiSRJUptXziRJkiSpAhZnkiRJklQBizNJkiRJqoDPnElSA8z1jNyalbs4b7dlPiMnSVIzeeVMkiRJkipgcSZJkiRJFbA4kyRJkqQKWJxJkiRJUgX2qkOQiDgNuBjYB3hfZq4bSCpJqkgvX1jdCzvukCRJnfq+chYR+wDvBl4CHA+8IiKOH1QwSZIkSRone3Nb44nAlsy8JzO/D2wEzhhMLEmSJEkaL3tTnC0D7uuY3lbmSZIkSZJ6FJnZ34YRZwGnZeZryvQrgedm5mt3W281sLpMHgfc2eOhjgC+1VfI+tm25lms7QLb1lTDatvTM/PIIexXkiTNYW86BNkOHNUxvbzM+xGZuR5Y3+9BIuLmzJzsd/ua2bbmWaztAtvWVIu5bZIkjZu9ua3xi8CxEXF0ROwPnANcPZhYkiRJkjRe+r5ylpm7IuK1wCdpd6X//sy8fWDJJEmSJGmM7NX3nGXm3wF/N6Asc+n7lsgGsG3Ns1jbBbatqRZz2yRJGit9dwgiSZIkSRqcvXnmTJIkSZI0IFUXZxFxWkTcGRFbImLtqPPMJyKOiogbIuKOiLg9Ii4o8w+PiOsi4q7y87AyPyLinaV9X42IZ3fsa1VZ/66IWDWqNu0uIvaJiFsi4poyfXRE3FTacFnpHIaIeHKZ3lKWr+jYx4Vl/p0R8eIRNeVHRMSSiLgiIr4WEZsj4nmL4X2LiP9aPou3RcRHIuKApr5nEfH+iNgZEbd1zBvYexQRz4mIW8s274yIGHHb/mf5PH41Iq6MiCUdy2Z9P+b6mznXey5JkiqTmVUOtDsZuRt4BrA/8BXg+FHnmifzUuDZZfwpwD8DxwN/Bqwt89cCbyvjLwU+AQRwEnBTmX84cE/5eVgZP2zU7SvZXg98GLimTF8OnFPG3wP8Thn/XeA9Zfwc4LIyfnx5L58MHF3e430qaNcG4DVlfH9gSdPfN9pfCv914MCO9+q8pr5nwC8DzwZu65g3sPcI+EJZN8q2Lxlx214E7FvG39bRtlnfD/bwN3Ou99zBwcHBwcGhrqHmK2cnAlsy857M/D6wEThjxJn2KDN3ZOaXyvijwGba/0A+g/Y//ik/zyzjZwAfzLbPA0siYinwYuC6zPxOZj4IXAectnAtmV1ELAdOB95XpgM4BbiirLJ722bafAVwaln/DGBjZn4vM78ObKH9Xo9MRBxK+x/HlwBk5vcz8yEWx/u2L3BgROwLHATsoKHvWWZ+FvjObrMH8h6VZT+RmZ/PzAQ+2LGvoZutbZn5qczcVSY/T/u7JGHu92PWv5nz/J5KkqSK1FycLQPu65jeVuY1Qrkl7FnATcBEZu4oi+4HJsr4XG2ste3vAN4A/KBMPxV4qOMfkJ05n2hDWf5wWb/Gth0NfBP4m3LL5vsi4mAa/r5l5nbgz4Fv0C7KHgY2sTjesxmDeo+WlfHd59fit2hfzYPe27an31NJklSRmouzxoqIQ4CPAa/LzEc6l5X/lW9cF5kR8TJgZ2ZuGnWWIdiX9i1lf5WZzwIeo32L3BOa+L6V56/OoF18Pg04mNFfyRuaJr5H3YiINwG7gEtHnUWSJA1XzcXZduCojunlZV7VImI/2oXZpZn58TL7gXLbFOXnzjJ/rjbW2PbnAy+PiK20b5c6BbiY9u1iM9+X15nziTaU5YcC36bOtm0DtmXmTWX6CtrFWtPftxcAX8/Mb2bmvwEfp/0+Lob3bMag3qPt/PC2wc75IxUR5wEvA84txSf03rZvM/d7LkmSKlJzcfZF4NjSy9j+tDsouHrEmfaoPNtxCbA5M/+iY9HVwEyvcKuAqzrmv6r0LHcS8HC5ReuTwIsi4rBy9eNFZd7IZOaFmbk8M1fQfi8+k5nnAjcAZ5XVdm/bTJvPKutnmX9O6RnwaOBY2h0xjExm3g/cFxHHlVmnAnfQ/PftG8BJEXFQ+WzOtKvx71mHgbxHZdkjEXFSea1e1bGvkYiI02jfRvzyzPzXjkVzvR+z/s0s7+Fc77kkSarJqHsk2dNAu8e1f6bdA9mbRp2ni7y/SPu2qq8CXy7DS2k/83E9cBfwaeDwsn4A7y7tuxWY7NjXb9F+0H8L8OpRt223dk7xw94an0H7H4ZbgI8CTy7zDyjTW8ryZ3Rs/6bS5jtZwB7x5mnTCcDN5b37W9o9+TX+fQPeAnwNuA34X7R7+GvkewZ8hPazc/9G+2rn+YN8j4DJ8jrdDbwLiBG3bQvtZ8hm/pa8Z773gzn+Zs71njs4ODg4ODjUNUTmontEQ5IkSZIap+bbGiVJkiRpbFicSZIkSVIFLM4kSZIkqQIWZ5IkSZJUAYszSZIkSaqAxZkkSZIkVcDiTJIkSZIqYHEmSZIkSRX4/wEyAMz8yBACxwAAAABJRU5ErkJggg==", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "num_columns = [\"mileage\", \"age\",\"avg_yearly_mileage\"]\n", "X_train[num_columns].hist(figsize=(15,9), bins=30)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "można tu zaobserwować, że rozkład przebiegu jest silnie skośny, pozostałe 2 zmienne mają rozkład zbliżony do jednostajnego" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "ExecuteTime": { "end_time": "2021-10-13T07:17:10.658130Z", "start_time": "2021-10-13T07:17:10.645132Z" } }, "outputs": [], "source": [ "pt=PowerTransformer(standardize=False)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "tworzymy obiekt klasy PowerTransformer, korzystamy tutaj z domyślnej transformacji Yeo-Johnson, zmieniamy natomiast ustawienie o sprowadzeniu do rozkładu o średniej równej 0 i odchyleniu standardowym równym 1, które domyślnie jest ustawione na True" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "
\n", "Info \n", "\n", "Domyślna transformacja czyli metoda Yeo-Johnsona może być stosowana niezależnie od znaku transformowanych zmiennych, natomiast alternatywna transformacja Box-Cox wymaga ściśle dodatnich zmiennych na wejściu.\n", "
" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "ExecuteTime": { "end_time": "2021-10-13T07:17:12.567395Z", "start_time": "2021-10-13T07:17:12.504256Z" } }, "outputs": [], "source": [ "pt.fit(X_train[num_columns])\n", "X_train_num_transformed = pd.DataFrame(pt.transform(X_train[num_columns]), columns =num_columns)\n", "X_test_num_transformed = pd.DataFrame(pt.transform(X_test[num_columns]), columns =num_columns)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "analogicznie jak przy poprzednio stosowanych transformerach korzystamy tutaj z metod fit i transform, a następnie konwertujemy wynik na ramkę danych." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Przeanalizujmy jak mocno zmieniły się rozkłady poszczególnych zmiennych:" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "ExecuteTime": { "end_time": "2021-10-13T07:17:15.319229Z", "start_time": "2021-10-13T07:17:14.579501Z" } }, "outputs": [ { "data": { "text/plain": [ "array([[,\n", " ],\n", " [,\n", " ]], dtype=object)" ] }, "execution_count": 45, "metadata": {}, "output_type": "execute_result" }, { "data": { "image/png": "", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "X_train_num_transformed.hist(figsize=(15,9), bins=30)" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "ExecuteTime": { "end_time": "2021-10-13T07:17:17.300950Z", "start_time": "2021-10-13T07:17:16.516675Z" } }, "outputs": [ { "data": { "text/plain": [ "array([[,\n", " ],\n", " [,\n", " ]], dtype=object)" ] }, "execution_count": 46, "metadata": {}, "output_type": "execute_result" }, { "data": { "image/png": "", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "X_test_num_transformed.hist(figsize=(15,9), bins=30)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Zmienna mileage na zbiorze treningowym z silnie skośnej nabrała cech rozkładu normalnego, pozostałe przypadki nie wyglądają jednak na rozkład normalny.\n", "\n", "Wypróbujmy inny sposób modyfikacji rozkładu - QuantileTransformer" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "ExecuteTime": { "end_time": "2021-10-13T07:17:18.505059Z", "start_time": "2021-10-13T07:17:18.494059Z" } }, "outputs": [], "source": [ "from sklearn.preprocessing import QuantileTransformer" ] }, { "cell_type": "markdown", "metadata": { "ExecuteTime": { "end_time": "2021-10-12T12:33:51.065807Z", "start_time": "2021-10-12T12:33:51.054809Z" } }, "source": [ "tworzymy obiekt klasy QuantileTransformer, zamiast bazowego rozkładu jednostajnego wybierając rozkład normalny" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "ExecuteTime": { "end_time": "2021-10-13T07:17:19.603548Z", "start_time": "2021-10-13T07:17:19.595552Z" } }, "outputs": [], "source": [ "qt = QuantileTransformer(output_distribution=\"normal\")" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "ExecuteTime": { "end_time": "2021-10-13T07:17:20.741079Z", "start_time": "2021-10-13T07:17:20.712098Z" } }, "outputs": [], "source": [ "qt.fit(X_train[num_columns])\n", "X_train_num_transformed = pd.DataFrame(qt.transform(X_train[num_columns]), columns =num_columns)\n", "X_test_num_transformed = pd.DataFrame(qt.transform(X_test[num_columns]), columns =num_columns)" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "ExecuteTime": { "end_time": "2021-10-13T07:17:22.402716Z", "start_time": "2021-10-13T07:17:21.796969Z" } }, "outputs": [ { "data": { "text/plain": [ "array([[,\n", " ],\n", " [,\n", " ]], dtype=object)" ] }, "execution_count": 50, "metadata": {}, "output_type": "execute_result" }, { "data": { "image/png": "", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "X_train_num_transformed.hist(figsize=(15,9), bins=30)" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "ExecuteTime": { "end_time": "2021-10-13T07:17:24.287340Z", "start_time": "2021-10-13T07:17:23.467093Z" } }, "outputs": [ { "data": { "text/plain": [ "array([[,\n", " ],\n", " [,\n", " ]], dtype=object)" ] }, "execution_count": 51, "metadata": {}, "output_type": "execute_result" }, { "data": { "image/png": "", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "X_test_num_transformed.hist(figsize=(15,9), bins=30)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Jak widzimy rozkłady są teraz zupełnie inne, na zbiorze treningowym bardzo zbliżone do rozkładu normalnego, jednak na zbiorze testowym juz dość znacznie się różnią, co może wynikać po części z niewielkiego rozmiaru próby." ] }, { "cell_type": "markdown", "metadata": { "ExecuteTime": { "end_time": "2021-10-12T12:44:21.258422Z", "start_time": "2021-10-12T12:44:21.242568Z" } }, "source": [ "
\n", "Info \n", "\n", "To jaki dokładnie zestaw transformacji ostatecznie wybrać powinno wynikać przede wszystkim z obserwacji ustalonej wcześniej metryki jakości modelu.\n", "
" ] }, { "cell_type": "markdown", "metadata": { "ExecuteTime": { "end_time": "2021-10-13T05:54:13.280903Z", "start_time": "2021-10-13T05:54:13.268867Z" } }, "source": [ "# Łączenie zmiennych numerycznych w przedziały" ] }, { "cell_type": "markdown", "metadata": { "ExecuteTime": { "end_time": "2021-10-13T05:58:15.399488Z", "start_time": "2021-10-13T05:58:15.382490Z" } }, "source": [ "podobnie jak w przypadku zmiennych kategorycznych, zmienne numeryczne również można przekształcać grupując razem pewne ich wartości. Proces taki nazywamy kubełkowaniem." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "
\n", "Definicja \n", "\n", "Kubełkowanie (ang. *binning*) polega na łączeniu wartości zmiennych numerycznych w przedziały, ma to na celu zmniejszenie możliwości przeuczenia modelu.\n", "
" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Wybór takich przedziałów może występować zarówno na podstawie cech rozkładu zmiennych (np wartości kwartyli) jak i wiedzy domenowej, tutaj zaprezentujemy obie możliwości." ] }, { "cell_type": "markdown", "metadata": { "ExecuteTime": { "end_time": "2021-10-13T06:29:15.187589Z", "start_time": "2021-10-13T06:29:15.174595Z" } }, "source": [ "do podziału wg statystyk pozycyjnych z rozkładu wykorzystamy funkcję qcut z biblioteki pandas" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "ExecuteTime": { "end_time": "2021-10-13T07:17:26.802519Z", "start_time": "2021-10-13T07:17:26.750194Z" } }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
mileagemileage_binned_4mileage_binned_10
82524486(293524.25, 699892.0](429566.5, 699892.0]
991166856(162418.5, 293524.25](162418.5, 212552.8]
78994191(61161.25, 162418.5](78348.9, 116729.4]
89454210(3784.999, 61161.25](48631.6, 78348.9]
398264049(162418.5, 293524.25](212552.8, 265707.6]
............
106127914(61161.25, 162418.5](116729.4, 162418.5]
270185880(162418.5, 293524.25](162418.5, 212552.8]
860116011(61161.25, 162418.5](78348.9, 116729.4]
43525782(3784.999, 61161.25](25757.7, 48631.6]
102145116(61161.25, 162418.5](116729.4, 162418.5]
\n", "

750 rows × 3 columns

\n", "
" ], "text/plain": [ " mileage mileage_binned_4 mileage_binned_10\n", "82 524486 (293524.25, 699892.0] (429566.5, 699892.0]\n", "991 166856 (162418.5, 293524.25] (162418.5, 212552.8]\n", "789 94191 (61161.25, 162418.5] (78348.9, 116729.4]\n", "894 54210 (3784.999, 61161.25] (48631.6, 78348.9]\n", "398 264049 (162418.5, 293524.25] (212552.8, 265707.6]\n", ".. ... ... ...\n", "106 127914 (61161.25, 162418.5] (116729.4, 162418.5]\n", "270 185880 (162418.5, 293524.25] (162418.5, 212552.8]\n", "860 116011 (61161.25, 162418.5] (78348.9, 116729.4]\n", "435 25782 (3784.999, 61161.25] (25757.7, 48631.6]\n", "102 145116 (61161.25, 162418.5] (116729.4, 162418.5]\n", "\n", "[750 rows x 3 columns]" ] }, "execution_count": 52, "metadata": {}, "output_type": "execute_result" } ], "source": [ "X_train[\"mileage_binned_4\"] = pd.qcut(X_train[\"mileage\"], q=4)\n", "X_train[\"mileage_binned_10\"] = pd.qcut(X_train[\"mileage\"], q=10)\n", "X_train[[\"mileage\",\"mileage_binned_4\",\"mileage_binned_10\"]]" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Stworzyliśmy tutaj 2 nowe cechy na zbiorze treningowym w oparciu o kwartyle i decyle rozkładu zmiennej mileage. Jak widzimy poszczególnym wartościom przypisane zostały wartości przedziałów do których one wpadają w danym podziale na kubełki." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "jeśli chcemy samodzielnie określić etykiety przedziałów można posłużyć się parametrem labels" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "ExecuteTime": { "end_time": "2021-10-13T07:17:28.921670Z", "start_time": "2021-10-13T07:17:28.889069Z" } }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
mileagemileage_binned_4mileage_binned_10
82524486410
99116685636
7899419124
8945421013
39826404937
............
10612791425
27018588036
86011601124
4352578212
10214511625
\n", "

750 rows × 3 columns

\n", "
" ], "text/plain": [ " mileage mileage_binned_4 mileage_binned_10\n", "82 524486 4 10\n", "991 166856 3 6\n", "789 94191 2 4\n", "894 54210 1 3\n", "398 264049 3 7\n", ".. ... ... ...\n", "106 127914 2 5\n", "270 185880 3 6\n", "860 116011 2 4\n", "435 25782 1 2\n", "102 145116 2 5\n", "\n", "[750 rows x 3 columns]" ] }, "execution_count": 53, "metadata": {}, "output_type": "execute_result" } ], "source": [ "X_train[\"mileage_binned_4\"] = pd.qcut(X_train[\"mileage\"], q=4, labels=np.arange(1,5))\n", "X_train[\"mileage_binned_10\"] = pd.qcut(X_train[\"mileage\"], q=10, labels=np.arange(1,11))\n", "X_train[[\"mileage\",\"mileage_binned_4\",\"mileage_binned_10\"]]" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "
\n", "Uwaga! \n", " \n", "Wszystkie przekształcenia wykorzystujące informacje o rozkładach cech należy implementować najpierw na zbiorze treningowym, a następnie w oparciu o rozkład ze zbioru treningowego - na zbiorze testowym. Inaczej wykorzystujemy informacje ze zbioru testowego i przestaje on być niezależny.\n", "
" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "tutaj możemy skorzystać z parametru retbins i dostać granice kubełków a następnie w oparciu o te granice dokonać identycznego podziału na zbiorze testowym" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "ExecuteTime": { "end_time": "2021-10-13T07:17:31.262868Z", "start_time": "2021-10-13T07:17:31.238876Z" } }, "outputs": [ { "data": { "text/plain": [ "array([ 3785. , 61161.25, 162418.5 , 293524.25, 699892. ])" ] }, "execution_count": 54, "metadata": {}, "output_type": "execute_result" } ], "source": [ "_, bins = pd.qcut(X_train[\"mileage\"], q=4, retbins=True)\n", "bins" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "alternatywnym podejściem jest użycie funkcji cut z biblioteki pandas, która pozwala podzielić wartości zmiennej na zdefiniowaną liczbę przedziałów o identycznej szerokości lub przypisać je do zdefiniowanych samodzielnie przedziałów" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "załóżmy, że jeśli chodzi o wiek samochodu znaczenie mają przedziały do 3 lat, od 3 do 7, od 7 do 12, 12-25 oraz ponad 25. Możemy łatwo dokonać takiego przypisania przydzielając poszczególnym kubełkom odpowiednie nazwy:" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "ExecuteTime": { "end_time": "2021-10-13T07:17:33.515740Z", "start_time": "2021-10-13T07:17:33.488642Z" } }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
ageage_binned
8265extremely_old
99125very_old
78921very_old
89467extremely_old
39836extremely_old
.........
10631extremely_old
27059extremely_old
86014very_old
4357middle_age
10242extremely_old
\n", "

750 rows × 2 columns

\n", "
" ], "text/plain": [ " age age_binned\n", "82 65 extremely_old\n", "991 25 very_old\n", "789 21 very_old\n", "894 67 extremely_old\n", "398 36 extremely_old\n", ".. ... ...\n", "106 31 extremely_old\n", "270 59 extremely_old\n", "860 14 very_old\n", "435 7 middle_age\n", "102 42 extremely_old\n", "\n", "[750 rows x 2 columns]" ] }, "execution_count": 55, "metadata": {}, "output_type": "execute_result" } ], "source": [ "X_train[\"age_binned\"] = pd.cut(X_train[\"age\"],[0,3,7,12,25,100], labels =[\"new\",\"middle_age\",\"old\",\"very_old\",\"extremely_old\"] )\n", "X_train[[\"age\",\"age_binned\"]]" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "# Normalizacja i Standaryzacja" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Załóżmy, że finalnie mamy zbiór danych złożony stricte ze zmiennych numerycznych:" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "ExecuteTime": { "end_time": "2021-10-13T07:17:35.815133Z", "start_time": "2021-10-13T07:17:35.791137Z" } }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
mileagecondition_transformedageavg_yearly_mileageis_classic
825244862.0658069.00.0
9911668563.0256674.00.0
789941912.0214485.00.0
894542101.067809.00.0
3982640494.0367335.00.0
..................
1061279143.0314126.00.0
2701858803.0593151.00.0
8601160110.0148286.00.0
435257822.073683.00.0
1021451162.0423455.00.0
\n", "

750 rows × 5 columns

\n", "
" ], "text/plain": [ " mileage condition_transformed age avg_yearly_mileage is_classic\n", "82 524486 2.0 65 8069.0 0.0\n", "991 166856 3.0 25 6674.0 0.0\n", "789 94191 2.0 21 4485.0 0.0\n", "894 54210 1.0 67 809.0 0.0\n", "398 264049 4.0 36 7335.0 0.0\n", ".. ... ... ... ... ...\n", "106 127914 3.0 31 4126.0 0.0\n", "270 185880 3.0 59 3151.0 0.0\n", "860 116011 0.0 14 8286.0 0.0\n", "435 25782 2.0 7 3683.0 0.0\n", "102 145116 2.0 42 3455.0 0.0\n", "\n", "[750 rows x 5 columns]" ] }, "execution_count": 56, "metadata": {}, "output_type": "execute_result" } ], "source": [ "X_train = X_train.loc[:,[\"mileage\",\"condition_transformed\", \"age\",\"avg_yearly_mileage\",\"is_classic\"]]\n", "X_test = X_test.loc[:,[\"mileage\",\"condition_transformed\", \"age\",\"avg_yearly_mileage\",\"is_classic\"]]\n", "X_train" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "możemy łatwo zaobserwować, że zmienne znacznie różnią się pod względem średniej czy wariancji:" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "ExecuteTime": { "end_time": "2021-10-13T07:17:37.305187Z", "start_time": "2021-10-13T07:17:37.248078Z" } }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
mileagecondition_transformedageavg_yearly_mileageis_classic
count750.00750.00750.00750.00750.00
mean198670.122.4136.945458.120.01
std158883.171.1620.342766.600.12
min3785.000.002.00118.000.00
25%61161.252.0019.003306.750.00
50%162418.502.0037.005615.000.00
75%293524.253.0055.007816.250.00
max699892.004.0071.0012205.001.00
\n", "
" ], "text/plain": [ " mileage condition_transformed age avg_yearly_mileage \\\n", "count 750.00 750.00 750.00 750.00 \n", "mean 198670.12 2.41 36.94 5458.12 \n", "std 158883.17 1.16 20.34 2766.60 \n", "min 3785.00 0.00 2.00 118.00 \n", "25% 61161.25 2.00 19.00 3306.75 \n", "50% 162418.50 2.00 37.00 5615.00 \n", "75% 293524.25 3.00 55.00 7816.25 \n", "max 699892.00 4.00 71.00 12205.00 \n", "\n", " is_classic \n", "count 750.00 \n", "mean 0.01 \n", "std 0.12 \n", "min 0.00 \n", "25% 0.00 \n", "50% 0.00 \n", "75% 0.00 \n", "max 1.00 " ] }, "execution_count": 57, "metadata": {}, "output_type": "execute_result" } ], "source": [ "np.round(X_train.describe(),2)" ] }, { "cell_type": "markdown", "metadata": { "ExecuteTime": { "end_time": "2021-10-12T12:57:38.502082Z", "start_time": "2021-10-12T12:57:38.483083Z" } }, "source": [ "Niektóre metody modelowania są zależne od odległości bądź wariancji zmiennych, więc chcąc aby wpływ danej zmiennej na predykcje wynikał przede wszystkim z jej związku ze zmienną celu, a nie ze skali, powinniśmy zastosować normalizację lub standaryzację" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "zacznijmy od normalizacji, zrealizujemy ją za pomocą kolejnego transformera z biblioteki sklearn: MinMaxScaler" ] }, { "cell_type": "markdown", "metadata": { "ExecuteTime": { "end_time": "2021-10-12T12:59:31.456780Z", "start_time": "2021-10-12T12:59:31.451782Z" } }, "source": [ "
\n", "Definicja \n", "\n", "Normalizacja polega na przekształcaniu zmiennej do zakresu wartości <0,1> poprzez odjęcie minumum i podzielenie przez różnicę pomiędzy maksimum a minimum z rozkładu.\n", "
" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "ExecuteTime": { "end_time": "2021-10-13T07:17:40.148991Z", "start_time": "2021-10-13T07:17:40.135140Z" } }, "outputs": [], "source": [ "from sklearn.preprocessing import MinMaxScaler" ] }, { "cell_type": "markdown", "metadata": { "ExecuteTime": { "end_time": "2021-10-13T05:15:34.463942Z", "start_time": "2021-10-13T05:15:34.450911Z" } }, "source": [ "tworzymy obiekt klasy MinMaxScaler korzystając z bazowych ustawień, możliwa jest zmiana docelowego zakresu wartości z bazowego <0,1> na dowolnie wybrany poprzez użycie parametru feature_range" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "ExecuteTime": { "end_time": "2021-10-13T07:17:41.519658Z", "start_time": "2021-10-13T07:17:41.505312Z" } }, "outputs": [], "source": [ "mm = MinMaxScaler()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Metody są oczywiście analogiczne jak w poprzednich przypadkach, konwertujemy wyniki z powrotem na ramki danych aby łatwiej było je oglądać" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "ExecuteTime": { "end_time": "2021-10-13T07:17:42.980277Z", "start_time": "2021-10-13T07:17:42.922226Z" } }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
mileagecondition_transformedageavg_yearly_mileageis_classic
count750.00750.00750.00750.00750.00
mean0.280.600.510.440.01
std0.230.290.290.230.12
min0.000.000.000.000.00
25%0.080.500.250.260.00
50%0.230.500.510.450.00
75%0.420.750.770.640.00
max1.001.001.001.001.00
\n", "
" ], "text/plain": [ " mileage condition_transformed age avg_yearly_mileage is_classic\n", "count 750.00 750.00 750.00 750.00 750.00\n", "mean 0.28 0.60 0.51 0.44 0.01\n", "std 0.23 0.29 0.29 0.23 0.12\n", "min 0.00 0.00 0.00 0.00 0.00\n", "25% 0.08 0.50 0.25 0.26 0.00\n", "50% 0.23 0.50 0.51 0.45 0.00\n", "75% 0.42 0.75 0.77 0.64 0.00\n", "max 1.00 1.00 1.00 1.00 1.00" ] }, "execution_count": 60, "metadata": {}, "output_type": "execute_result" } ], "source": [ "mm.fit(X_train)\n", "X_train_mm_scaled = pd.DataFrame(mm.transform(X_train), columns=X_train.columns)\n", "X_test_mm_scaled = pd.DataFrame(mm.transform(X_test), columns=X_test.columns)\n", "np.round(X_train_mm_scaled.describe(),2)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "jak widzimy wszystkie cechy zostały teraz przeniesione do tego samego zakresu wartości <0,1>, ale ich średnia i odchylenie standardowe nie są identyczne. Oczywiście nie mamy gwarancji, że na nowych danych nie pojawią się wartości spoza wykresu widzianego na zbiorze treningowym. Jeśli chcemy być pewni, że znormalizowane zmienne zachowają swój zakres wartości należy tworząc obiekt klasy MinMaxScaler ustawić parametr clip na True." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "
\n", "Uwaga! \n", " \n", "Nie zaleca się korzystania z MinMaxScaler dla zmiennych posiadających wartości odstające. Jeśli takie wartości nie zostaną wcześniej prawidłowo obsłużone, to większość \"normalnych\" wartości zmiennej będzie \"upchana\" w małym zakresie wartości co nie będzie sprzyjać jej wartości dla predykcji. \n", "
" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "zaprezentujemy teraz przykład standaryzacji z wykorzystaniem transformera StandardScaler z biblioteki sklearn" ] }, { "cell_type": "markdown", "metadata": { "ExecuteTime": { "end_time": "2021-10-12T13:00:59.929173Z", "start_time": "2021-10-12T13:00:59.914162Z" } }, "source": [ "
\n", "Definicja \n", "\n", "Standaryzacja polega na przekształcaniu zmiennej do rozkładu o wartości oczekiwanej 0 i odchyleniu standardowym 1 poprzez odjęcie średniej i podzielenie przez odchylenie standardowe\n", "
" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "ExecuteTime": { "end_time": "2021-10-13T07:17:46.352480Z", "start_time": "2021-10-13T07:17:46.341479Z" } }, "outputs": [], "source": [ "from sklearn.preprocessing import StandardScaler" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "tworzymy obiekt klasy StandardScaler korzystając z bazowych ustawień" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "ExecuteTime": { "end_time": "2021-10-13T07:17:47.954486Z", "start_time": "2021-10-13T07:17:47.945485Z" } }, "outputs": [], "source": [ "ss =StandardScaler()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Metody rownież są analogiczne jak w poprzednich przypadkach, konwertujemy wyniki z powrotem na ramki danych aby łatwiej było je oglądać" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "ExecuteTime": { "end_time": "2021-10-13T07:17:49.512341Z", "start_time": "2021-10-13T07:17:49.423237Z" } }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
mileagecondition_transformedageavg_yearly_mileageis_classic
count750.00750.00750.00750.00750.00
mean0.00-0.00-0.00-0.000.00
std1.001.001.001.001.00
min-1.23-2.08-1.72-1.93-0.12
25%-0.87-0.35-0.88-0.78-0.12
50%-0.23-0.350.000.06-0.12
75%0.600.510.890.85-0.12
max3.161.371.682.448.20
\n", "
" ], "text/plain": [ " mileage condition_transformed age avg_yearly_mileage is_classic\n", "count 750.00 750.00 750.00 750.00 750.00\n", "mean 0.00 -0.00 -0.00 -0.00 0.00\n", "std 1.00 1.00 1.00 1.00 1.00\n", "min -1.23 -2.08 -1.72 -1.93 -0.12\n", "25% -0.87 -0.35 -0.88 -0.78 -0.12\n", "50% -0.23 -0.35 0.00 0.06 -0.12\n", "75% 0.60 0.51 0.89 0.85 -0.12\n", "max 3.16 1.37 1.68 2.44 8.20" ] }, "execution_count": 63, "metadata": {}, "output_type": "execute_result" } ], "source": [ "ss.fit(X_train)\n", "X_train_ss_scaled = pd.DataFrame(ss.transform(X_train), columns=X_train.columns)\n", "X_test_ss_scaled = pd.DataFrame(ss.transform(X_test), columns=X_test.columns)\n", "np.round(X_train_ss_scaled.describe(),2)" ] }, { "cell_type": "markdown", "metadata": { "ExecuteTime": { "end_time": "2021-10-13T05:47:31.194364Z", "start_time": "2021-10-13T05:47:31.178364Z" } }, "source": [ "W przeciwieństwie do poprzedniego przekształcenia zmienne mają identyczną średnią i odchylenie standardowe, za to różnią sie zakresami wartości." ] }, { "cell_type": "markdown", "metadata": { "ExecuteTime": { "end_time": "2021-10-13T05:50:25.897677Z", "start_time": "2021-10-13T05:50:25.880675Z" } }, "source": [ "
\n", "Info \n", "\n", "Jako że StandardScaler opiera się na użyciu średniej i odchylenia standardowego z transformowanej zmiennej, również nie jest on wolny od wpływu wartości odstających. Jeśli chcemy być pewni, że wartości odstające nie będą miały wpływu na skalę przekształconej zmiennej można skorzystać z klasy RobustScaler \n", "
" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "# Łączenie różnych transformacji w ramach pipeline" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "cofnijmy się teraz na chwilę do etapu generowania danych i zobaczmy jak można w łatwy i niezawodny sposób łączyć ze sobą różne transformacje z wykorzystaniem obiektów Pipeline oraz ColumnTransformer" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "
\n", "Definicja \n", "\n", "Pipeline jest to przepływ danych przez ułożone w kolejności moduły wykonujące ustalone transformacje, zazwyczaj ostatnim elementem jest model predykcyjny\n", "
" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "ExecuteTime": { "end_time": "2021-10-13T08:30:51.418449Z", "start_time": "2021-10-13T08:30:51.387402Z" } }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
conditionmileagebrandage
82very_good69205Skoda6
991good322639VW46
789good86970Fiat20
894very_good524559Fiat66
398medium18954Audi35
...............
106good209892Renault38
270very_good108168Seat51
860good39632Mercedes59
435medium267041Fiat50
102good24438Audi26
\n", "

750 rows × 4 columns

\n", "
" ], "text/plain": [ " condition mileage brand age\n", "82 very_good 69205 Skoda 6\n", "991 good 322639 VW 46\n", "789 good 86970 Fiat 20\n", "894 very_good 524559 Fiat 66\n", "398 medium 18954 Audi 35\n", ".. ... ... ... ...\n", "106 good 209892 Renault 38\n", "270 very_good 108168 Seat 51\n", "860 good 39632 Mercedes 59\n", "435 medium 267041 Fiat 50\n", "102 good 24438 Audi 26\n", "\n", "[750 rows x 4 columns]" ] }, "execution_count": 69, "metadata": {}, "output_type": "execute_result" } ], "source": [ "UsedCars_df =generate_used_cars_data()\n", "X = UsedCars_df.drop(\"selling_price\",axis=1)\n", "y = UsedCars_df[\"selling_price\"]\n", "X[\"age\"] = 2021 - X[\"year_manufactured\"]\n", "X.drop(\"year_manufactured\", axis=1, inplace=True)\n", "X_train, X_test, y_train, y_test = train_test_split(X,y, test_size=0.25, random_state=42)\n", "X_train" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "zdefiniujmy teraz grupy zmiennych, które będziemy poddawać poszczególnym transformacjom:" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "ExecuteTime": { "end_time": "2021-10-13T08:31:37.861867Z", "start_time": "2021-10-13T08:31:37.843794Z" } }, "outputs": [], "source": [ "columns_for_ordinal_encoding =[\"condition\"]\n", "columns_for_target_encoding =[\"brand\"]\n", "numerical_columns =[\"age\",\"mileage\"]" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "następnie importujemy niezbędne klasy" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "ExecuteTime": { "end_time": "2021-10-13T07:37:51.258106Z", "start_time": "2021-10-13T07:37:50.986228Z" } }, "outputs": [], "source": [ "from sklearn.compose import ColumnTransformer\n", "from sklearn.pipeline import Pipeline" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "definiujemy pipeline do przetwarzania poszczególnych grup kolumn, pipeline mogą zawierać wiele kroków, tutaj dla uproszczenia wykorzystamy jednoelementowe" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "ExecuteTime": { "end_time": "2021-10-13T08:46:33.279578Z", "start_time": "2021-10-13T08:46:33.264583Z" } }, "outputs": [], "source": [ "pipeline_oe = Pipeline(steps =[(\"OrdinalEncoder\",\n", " OrdinalEncoder(\n", " categories =[['very_bad', 'bad', 'medium', 'good', 'very_good']],\n", " handle_unknown ='use_encoded_value', unknown_value=np.NaN))])\n", "\n", "pipeline_jse = Pipeline(steps=[(\"JamesSteinEncoder\",JamesSteinEncoder())])\n", "\n", "pipeline_num = Pipeline(steps=[(\"PowerTransformer\",PowerTransformer(standardize=False))])" ] }, { "cell_type": "markdown", "metadata": { "ExecuteTime": { "end_time": "2021-10-13T08:47:50.362158Z", "start_time": "2021-10-13T08:47:50.346529Z" } }, "source": [ "następnie przypisujemy zmienne do poszczególnych transformacji, korzystając z obiektu ColumnTransformer" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "ExecuteTime": { "end_time": "2021-10-13T08:50:55.791722Z", "start_time": "2021-10-13T08:50:55.784725Z" } }, "outputs": [], "source": [ "column_transformer = ColumnTransformer(\n", " transformers=[\n", " ('categorical_oe', pipeline_oe, columns_for_ordinal_encoding),\n", " ('categorical_jse', pipeline_jse, columns_for_target_encoding),\n", " ('numerical', pipeline_num, numerical_columns)\n", " ])" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "sam ColumnTransformer również może być częścią pipeline, przykładowo możemy na koniec zastosować standaryzacje" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "ExecuteTime": { "end_time": "2021-10-13T08:59:34.098331Z", "start_time": "2021-10-13T08:59:34.091331Z" } }, "outputs": [], "source": [ "preprocessing_pipeline = Pipeline(steps = [\n", " (\"column_transformer\", column_transformer),\n", " (\"scaler\",StandardScaler())\n", " ])" ] }, { "cell_type": "markdown", "metadata": { "ExecuteTime": { "end_time": "2021-10-13T09:08:30.550361Z", "start_time": "2021-10-13T09:08:30.533364Z" } }, "source": [ "jeśli używamy pipeline bez modelu predykcyjnego na końcu to stosujemy te same metody co przy zwykłych transformerach" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "ExecuteTime": { "end_time": "2021-10-13T08:59:37.863310Z", "start_time": "2021-10-13T08:59:37.797282Z" } }, "outputs": [ { "data": { "text/plain": [ "Pipeline(steps=[('column_transformer',\n", " ColumnTransformer(transformers=[('categorical_oe',\n", " Pipeline(steps=[('OrdinalEncoder',\n", " OrdinalEncoder(categories=[['very_bad',\n", " 'bad',\n", " 'medium',\n", " 'good',\n", " 'very_good']],\n", " handle_unknown='use_encoded_value',\n", " unknown_value=nan))]),\n", " ['condition']),\n", " ('categorical_jse',\n", " Pipeline(steps=[('JamesSteinEncoder',\n", " JamesSteinEncoder())]),\n", " ['brand']),\n", " ('numerical',\n", " Pipeline(steps=[('PowerTransformer',\n", " PowerTransformer(standardize=False))]),\n", " ['age', 'mileage'])])),\n", " ('scaler', StandardScaler())])" ] }, "execution_count": 81, "metadata": {}, "output_type": "execute_result" } ], "source": [ "preprocessing_pipeline.fit(X_train,y_train)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "po uruchomieniu metody fit widzimy wszystkie kroki całego pipeline" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "ExecuteTime": { "end_time": "2021-10-13T09:04:04.397527Z", "start_time": "2021-10-13T09:04:04.362537Z" } }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "rozmiar zbioru treningowego po transformacji: (750, 4)\n", "rozmiar zbioru testowego po transformacji: (250, 4)\n", "[[ 1.34093122 -0.77016684 -1.5987142 -0.59924888]\n", " [ 0.46641086 -0.80925124 0.58475157 0.97365003]\n", " [ 0.46641086 -0.7939586 -0.68985786 -0.40448688]\n", " ...\n", " [ 0.46641086 0.70876962 1.13401097 -1.02756173]\n", " [-0.4081095 -0.7939586 0.75822769 0.74397369]\n", " [ 0.46641086 0.80959101 -0.36550292 -1.35095193]]\n" ] } ], "source": [ "X_train_transformed = preprocessing_pipeline.transform(X_train)\n", "X_test_transformed = preprocessing_pipeline.transform(X_test)\n", "print(f\"rozmiar zbioru treningowego po transformacji: {X_train_transformed.shape}\")\n", "print(f\"rozmiar zbioru testowego po transformacji: {X_test_transformed.shape}\")\n", "print(X_train_transformed)" ] }, { "cell_type": "markdown", "metadata": { "ExecuteTime": { "end_time": "2021-10-13T09:11:50.317268Z", "start_time": "2021-10-13T09:11:50.299272Z" } }, "source": [ "jak widzimy zwrócony zbiór treningowy ma typ danych array a jego wymiary odpowiadają tym przed transformacją, zgodność wymiarów zależy jednak od zastosowanych transformacji" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "jeśli pipeline jest zakończony modelem predykcyjnym jego metody są identyczne jak metody modelu, czyli korzystamy z fit i predict, tak jak w poniższym przykładzie" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "ExecuteTime": { "end_time": "2021-10-13T09:15:56.032669Z", "start_time": "2021-10-13T09:15:56.026673Z" } }, "outputs": [], "source": [ "from sklearn.linear_model import LinearRegression\n", "\n", "final_pipeline = Pipeline(steps = [\n", " (\"preprocessing\", preprocessing_pipeline),\n", " (\"model\", LinearRegression())\n", " ])" ] }, { "cell_type": "markdown", "metadata": { "ExecuteTime": { "end_time": "2021-10-13T09:19:56.002592Z", "start_time": "2021-10-13T09:19:55.993593Z" } }, "source": [ "poniżej pokazujemy jak wytrenować pipeline w oparciu o zbiór treningowy a następnie dokonać predykcji na zbiorze testowym" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "ExecuteTime": { "end_time": "2021-10-13T09:20:56.132669Z", "start_time": "2021-10-13T09:20:56.071678Z" } }, "outputs": [ { "data": { "text/plain": [ "0 9649.925584\n", "1 30782.788094\n", "2 44681.214268\n", "3 5967.815692\n", "4 45684.785298\n", "Name: prediction, dtype: float64" ] }, "execution_count": 91, "metadata": {}, "output_type": "execute_result" } ], "source": [ "final_pipeline.fit(X_train, y_train)\n", "X_test_predicted = pd.Series(final_pipeline.predict(X_test),name=\"prediction\")\n", "X_test_predicted.head()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "# Podsumowanie" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Powyżej zaprezentowaliśmy kilka różnych przykładów przekształcania surowych danych w cechy predykcyjne przydatne przy modelowaniu. Niektóre transformacje można z powodzeniem stosować przy pracy nad innymi problemami, inne należy raczej potraktować jako inspirację. Ważne aby prace nad Feature Engineering poprzedzone były dobrym zrozumieniem danych. Niezwykle ważne jest tutaj aby już na tym etapie stosować odpowiednią strategię walidacyjną, aby zapobiec korzystaniu z informacji ze zbioru testowego, inaczej nasze wyniki nie będą miarodajne." ] }, { "cell_type": "code", "execution_count": null, "metadata": {}, "outputs": [], "source": [] } ], "metadata": { "kernelspec": { "display_name": "Python 3 (ipykernel)", "language": "python", "name": "python3" }, "language_info": { "codemirror_mode": { "name": "ipython", "version": 3 }, "file_extension": ".py", "mimetype": "text/x-python", "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", "version": "3.9.7" }, "toc": { "base_numbering": 1, "nav_menu": {}, "number_sections": true, "sideBar": true, "skip_h1_title": false, "title_cell": "Table of Contents", "title_sidebar": "Contents", "toc_cell": false, "toc_position": { "height": "calc(100% - 180px)", "left": "10px", "top": "150px", "width": "426.667px" }, "toc_section_display": true, "toc_window_display": true }, "varInspector": { "cols": { "lenName": 16, "lenType": 16, "lenVar": 40 }, "kernels_config": { "python": { "delete_cmd_postfix": "", "delete_cmd_prefix": "del ", "library": "var_list.py", "varRefreshCmd": "print(var_dic_list())" }, "r": { "delete_cmd_postfix": ") ", "delete_cmd_prefix": "rm(", "library": "var_list.r", "varRefreshCmd": "cat(var_dic_list()) " } }, "types_to_exclude": [ "module", "function", "builtin_function_or_method", "instance", "_Feature" ], "window_display": false } }, "nbformat": 4, "nbformat_minor": 4 }